原創(chuàng)|大數(shù)據(jù)新聞|編輯:鄭恭琳|2020-12-22 12:03:12.600|閱讀 395 次
概述:按照傳統(tǒng)的定義,元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉(cāng)庫(kù)管理員和數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)人員非常方便地找到他們所關(guān)心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類(lèi):技術(shù)元數(shù)據(jù)(Technical Metadata)和業(yè)務(wù)元數(shù)據(jù)(Business Metadata)。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷(xiāo)售中 >>
相關(guān)鏈接:
按照傳統(tǒng)的定義,元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉(cāng)庫(kù)管理員和數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)人員非常方便地找到他們所關(guān)心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類(lèi):技術(shù)元數(shù)據(jù)(Technical Metadata)和業(yè)務(wù)元數(shù)據(jù)(Business Metadata)。
技術(shù)元數(shù)據(jù)是存儲(chǔ)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開(kāi)發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)使用的數(shù)據(jù),它主要包括以下信息:
業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語(yǔ)義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語(yǔ)所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名;訪問(wèn)數(shù)據(jù)的原則和數(shù)據(jù)的來(lái)源;系統(tǒng)所提供的分析方法以及公式和報(bào)表的信息;具體包括以下信息:
與其說(shuō)數(shù)據(jù)倉(cāng)庫(kù)是軟件開(kāi)發(fā)項(xiàng)目,還不如說(shuō)是系統(tǒng)集成項(xiàng)目,因?yàn)樗闹饕ぷ魇前阉璧臄?shù)據(jù)倉(cāng)庫(kù)工具集成在一起,完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,OLAP分析和數(shù)據(jù)挖掘等。如下圖所示,它的典型結(jié)構(gòu)由操作環(huán)境層、數(shù)據(jù)倉(cāng)庫(kù)層和業(yè)務(wù)層等組成。
其中,第一層(操作環(huán)境層)是指整個(gè)企業(yè)內(nèi)有關(guān)業(yè)務(wù)的OLTP系統(tǒng)和一些外部數(shù)據(jù)源;第二層是通過(guò)把第一層的相關(guān)數(shù)據(jù)抽取到一個(gè)中心區(qū)而組成的數(shù)據(jù)倉(cāng)庫(kù)層;第三層是為了完成對(duì)業(yè)務(wù)數(shù)據(jù)的分析而由各種工具組成的業(yè)務(wù)層。圖中左邊的部分是元數(shù)據(jù)管理,它起到了承上啟下的作用,具體體現(xiàn)在以下幾個(gè)方面:
數(shù)據(jù)倉(cāng)庫(kù)最大的特點(diǎn)就是它的集成性。這一特點(diǎn)不僅體現(xiàn)在它所包含的數(shù)據(jù)上,還體現(xiàn)在實(shí)施數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的過(guò)程當(dāng)中。一方面,從各個(gè)數(shù)據(jù)源中抽取的數(shù)據(jù)要按照一定的模式存入數(shù)據(jù)倉(cāng)庫(kù)中,這些數(shù)據(jù)源與數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的對(duì)應(yīng)關(guān)系及轉(zhuǎn)換規(guī)則都要存儲(chǔ)在元數(shù)據(jù)知識(shí)庫(kù)中;另一方面,在數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施過(guò)程中,直接建立數(shù)據(jù)倉(cāng)庫(kù)往往費(fèi)時(shí)、費(fèi)力,因此在實(shí)踐當(dāng)中,人們可能會(huì)按照統(tǒng)一的數(shù)據(jù)模型,首先建設(shè)數(shù)據(jù)集市,然后在各個(gè)數(shù)據(jù)集市的基礎(chǔ)上再建設(shè)數(shù)據(jù)倉(cāng)庫(kù)。不過(guò),當(dāng)數(shù)據(jù)集市數(shù)量增多時(shí)很容易形成“蜘蛛網(wǎng)”現(xiàn)象,而元數(shù)據(jù)管理是解決“蜘蛛網(wǎng)”的關(guān)鍵。如果在建立數(shù)據(jù)集市的過(guò)程中,注意了元數(shù)據(jù)管理,在集成到數(shù)據(jù)倉(cāng)庫(kù)中時(shí)就會(huì)比較順利;相反,如果在建設(shè)數(shù)據(jù)集市的過(guò)程中忽視了元數(shù)據(jù)管理,那么最后的集成過(guò)程就會(huì)很困難,甚至不可能實(shí)現(xiàn)。
最終用戶不可能象數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)管理員或開(kāi)發(fā)人員那樣熟悉數(shù)據(jù)庫(kù)技術(shù),因此迫切需要有一個(gè)“翻譯”,能夠使他們清晰地理解數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的含意。元數(shù)據(jù)可以實(shí)現(xiàn)業(yè)務(wù)模型與數(shù)據(jù)模型之間的映射,因而可以把數(shù)據(jù)以用戶需要的方式“翻譯”出來(lái),從而幫助最終用戶理解和使用數(shù)據(jù)。
數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市建立好以后,使用者在使用的時(shí)候,常常會(huì)產(chǎn)生對(duì)數(shù)據(jù)的懷疑。這些懷疑往往是由于底層的數(shù)據(jù)對(duì)于用戶來(lái)說(shuō)是不“透明”的,使用者很自然地對(duì)結(jié)果產(chǎn)生懷疑。而借助元數(shù)據(jù)管理系統(tǒng),最終的使用者對(duì)各個(gè)數(shù)據(jù)的來(lái)龍去脈以及數(shù)據(jù)抽取和轉(zhuǎn)換的規(guī)則都會(huì)很方便地得到,這樣他們自然會(huì)對(duì)數(shù)據(jù)具有信心;當(dāng)然也可便捷地發(fā)現(xiàn)數(shù)據(jù)所存在的質(zhì)量問(wèn)題。甚至國(guó)外有學(xué)者還在元數(shù)據(jù)模型的基礎(chǔ)上引入質(zhì)量維,從更高的角度上來(lái)解決這一問(wèn)題。
隨著信息技術(shù)的發(fā)展和企業(yè)職能的變化,企業(yè)的需求也在不斷地改變。如何構(gòu)造一個(gè)隨著需求改變而平滑變化的軟件系統(tǒng),是軟件工程領(lǐng)域中的一個(gè)重要問(wèn)題。傳統(tǒng)的信息系統(tǒng)往往是通過(guò)文檔來(lái)適應(yīng)需求變化,但是僅僅依靠文檔還是遠(yuǎn)遠(yuǎn)不夠的。成功的元數(shù)據(jù)管理系統(tǒng)可以把整個(gè)業(yè)務(wù)的工作流、數(shù)據(jù)流和信息流有效地管理起來(lái),使得系統(tǒng)不依賴特定的開(kāi)發(fā)人員,從而提高系統(tǒng)的可擴(kuò)展性。
由以上幾節(jié)我們了解到元數(shù)據(jù)幾乎可以被稱為是數(shù)據(jù)倉(cāng)庫(kù)乃至商業(yè)智能(BI)系統(tǒng)的“靈魂”,正是由于元數(shù)據(jù)在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)生命周期中有著重要的地位,各個(gè)廠商的數(shù)據(jù)倉(cāng)庫(kù)解決方案都提到了關(guān)于對(duì)元數(shù)據(jù)的管理。但遺憾的是對(duì)于元數(shù)據(jù)的管理,各個(gè)解決方案都沒(méi)有明確提出一個(gè)完整的管理模式;它們提供的僅僅是對(duì)特定的局部元數(shù)據(jù)的管理。當(dāng)前市場(chǎng)上與元數(shù)據(jù)有關(guān)的主要工具見(jiàn)下圖:
如圖所示,與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉(cāng)庫(kù)工具大致可分為四類(lèi):
把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取、轉(zhuǎn)換、集成到數(shù)據(jù)倉(cāng)庫(kù)中,如Ardent的DataStage、Pentaho的開(kāi)源ETL產(chǎn)品Kettle、ETI的Extract等。這些工具僅提供了技術(shù)元數(shù)據(jù),幾乎沒(méi)有提供對(duì)業(yè)務(wù)元數(shù)據(jù)的支持。
包括OLAP分析、報(bào)表和商業(yè)智能工具等,如Cognos的PowerPlay、Business Objects的BO,以及國(guó)內(nèi)廠商帆軟的FineBI/FineReport等。它們通過(guò)把關(guān)系表映射成與業(yè)務(wù)相關(guān)的事實(shí)和維來(lái)支持多維業(yè)務(wù)視圖,進(jìn)而對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行多維分析。這些工具都提供了業(yè)務(wù)元數(shù)據(jù)與技術(shù)元數(shù)據(jù)相對(duì)應(yīng)的語(yǔ)義層。
為非技術(shù)人員準(zhǔn)備的業(yè)務(wù)建模工具,這些工具可以提供更高層的與特定業(yè)務(wù)相關(guān)的語(yǔ)義。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。
元數(shù)據(jù)通常存儲(chǔ)在專(zhuān)用的數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)就如同一個(gè)“黑盒子”,外部無(wú)法知道這些工具所用到和產(chǎn)生的元數(shù)據(jù)是如何存儲(chǔ)的。還有一類(lèi)被稱為元數(shù)據(jù)知識(shí)庫(kù)(Metadata Repository)的工具,它們獨(dú)立于其它工具,為元數(shù)據(jù)提供一個(gè)集中的存儲(chǔ)空間。這些工具包括微軟的Repository,Ardent的MetaStage和Sybase的WCC等。
目前國(guó)內(nèi)的元數(shù)據(jù)管理工具大概有三類(lèi)。一是像IBM、CA等公司都提供的專(zhuān)門(mén)工具,比如IBM收購(gòu)Ascential得到的MetaStage,CA的DecisionBase都是如此;二是像DAG的MetaCenter,開(kāi)源產(chǎn)品Pentaho Metadata,它們不依托于某項(xiàng)BI產(chǎn)品,是一種第三方的元數(shù)據(jù)管理工具;三是像普元、石竹這樣的集成商也有自己的元數(shù)據(jù)管理工具:普元MetaCube、新炬網(wǎng)絡(luò)元數(shù)據(jù)管理系統(tǒng)、石竹MetaOne等。
專(zhuān)門(mén)的元數(shù)據(jù)管理工具,對(duì)自家產(chǎn)品兼容較好,一旦涉及跨系統(tǒng)管理,就不盡如人意了。從國(guó)內(nèi)的實(shí)際應(yīng)用來(lái)看,DAG的MetaCenter這一工具使用最多,目前所看到的在電信、金融領(lǐng)域建設(shè)的元數(shù)據(jù)管理項(xiàng)目基本上都是應(yīng)用了這一產(chǎn)品。
我從互聯(lián)網(wǎng)上搜索了幾乎所有的元數(shù)據(jù)廠家:Pentaho開(kāi)源的MetaData產(chǎn)品,支持源碼下載試用,可以進(jìn)行集成開(kāi)發(fā);普元MetaCube下載后,配置麻煩,目前為止還沒(méi)有調(diào)通;其他公司產(chǎn)品均不提供下載試用。
沒(méi)有規(guī)矩不成方圓。元數(shù)據(jù)管理之所以困難,一個(gè)很重要的原因就是缺乏統(tǒng)一的標(biāo)準(zhǔn)。在這種情況下,各公司的元數(shù)據(jù)管理解決方案各不相同。近幾年,隨著元數(shù)據(jù)聯(lián)盟MDC(Meta Data Coalition)的開(kāi)放信息模型OIM(Open Information Model)和OMG組織的公共倉(cāng)庫(kù)模型CWM(Common Warehouse Model)標(biāo)準(zhǔn)的逐漸完善,以及MDC和OMG組織的合并,為數(shù)據(jù)倉(cāng)庫(kù)廠商提供了統(tǒng)一的標(biāo)準(zhǔn),從而為元數(shù)據(jù)管理鋪平了道路。
從元數(shù)據(jù)的發(fā)展歷史不難看出,元數(shù)據(jù)管理主要有兩種方法:
對(duì)于相對(duì)簡(jiǎn)單的環(huán)境,按照通用的元數(shù)據(jù)管理標(biāo)準(zhǔn)建立一個(gè)集中式的元數(shù)據(jù)知識(shí)庫(kù)。
對(duì)于比較復(fù)雜的環(huán)境,分別建立各部分的元數(shù)據(jù)管理系統(tǒng),形成分布式元數(shù)據(jù)知識(shí)庫(kù),然后,通過(guò)建立標(biāo)準(zhǔn)的元數(shù)據(jù)交換格式,實(shí)現(xiàn)元數(shù)據(jù)的集成管理。
目前OMG家的CWM(Common Warehouse MetaModel)標(biāo)準(zhǔn)已成為元數(shù)據(jù)管理界的統(tǒng)一標(biāo)準(zhǔn):
OMG是一個(gè)擁有500多會(huì)員的國(guó)際標(biāo)準(zhǔn)化組織,著名的CORBA標(biāo)準(zhǔn)即出自該組織。公共倉(cāng)庫(kù)元模型(Common Warehouse Metamodel)的主要目的是在異構(gòu)環(huán)境下,幫助不同的數(shù)據(jù)倉(cāng)庫(kù)工具、平臺(tái)和元數(shù)據(jù)知識(shí)庫(kù)進(jìn)行元數(shù)據(jù)交換。2001年3月,OMG頒布了CWM 1.0標(biāo)準(zhǔn)。CWM模型既包括元數(shù)據(jù)存儲(chǔ),也包括元數(shù)據(jù)交換,它是基于以下三個(gè)工業(yè)標(biāo)準(zhǔn)制定的:
OMG元數(shù)據(jù)知識(shí)庫(kù)體系結(jié)構(gòu)如下圖所示。
CWM為數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能(BI)工具之間共享元數(shù)據(jù),制定了一整套關(guān)于語(yǔ)法和語(yǔ)義的規(guī)范。它主要包含以下四個(gè)方面的規(guī)范:
數(shù)據(jù)地圖展現(xiàn)是以拓?fù)鋱D的形式對(duì)數(shù)據(jù)系統(tǒng)的各類(lèi)數(shù)據(jù)實(shí)體、數(shù)據(jù)處理過(guò)程元數(shù)據(jù)進(jìn)行分層次的圖形化展現(xiàn),并通過(guò)不同層次的圖形展現(xiàn)粒度控制,滿足開(kāi)發(fā)、運(yùn)維或者業(yè)務(wù)上不同應(yīng)用場(chǎng)景的圖形查詢和輔助分析需要。
血緣分析
血緣分析(也稱血統(tǒng)分析)是指從某一實(shí)體出發(fā),往回追溯其處理過(guò)程,直到數(shù)據(jù)系統(tǒng)的數(shù)據(jù)源接口。對(duì)于不同類(lèi)型的實(shí)體,其涉及的轉(zhuǎn)換過(guò)程可能有不同類(lèi)型,如:對(duì)于底層倉(cāng)庫(kù)實(shí)體,涉及的是ETL處理過(guò)程;而對(duì)于倉(cāng)庫(kù)匯總表,可能既涉及ETL處理過(guò)程,又涉及倉(cāng)庫(kù)匯總處理過(guò)程;而對(duì)于指標(biāo),則除了上面的處理過(guò)程,還涉及指標(biāo)生成的處理過(guò)程。數(shù)據(jù)源接口實(shí)體由源系統(tǒng)提供,作為數(shù)據(jù)系統(tǒng)的數(shù)據(jù)輸入,其它的數(shù)據(jù)實(shí)體都經(jīng)過(guò)了一個(gè)或多個(gè)不同類(lèi)型的處理過(guò)程。血緣分析正是提供了這樣一種功能,可以讓使用者根據(jù)需要了解不同的處理過(guò)程,每個(gè)處理過(guò)程具體做什么,需要什么樣的輸入,又產(chǎn)生什么樣的輸出。
影響分析
影響分析是指從某一實(shí)體出發(fā),尋找依賴該實(shí)體的處理過(guò)程實(shí)體或其他實(shí)體。如果需要可以采用遞歸方式尋找所有的依賴過(guò)程實(shí)體或其他實(shí)體。該功能支持當(dāng)某些實(shí)體發(fā)生變化或者需要修改時(shí),評(píng)估實(shí)體影響范圍。
實(shí)體關(guān)聯(lián)分析
實(shí)體關(guān)聯(lián)分析是從某一實(shí)體關(guān)聯(lián)的其它實(shí)體和其參與的處理過(guò)程兩個(gè)角度來(lái)查看具體數(shù)據(jù)的使用情況,形成一張實(shí)體和所參與處理過(guò)程的網(wǎng)絡(luò),從而進(jìn)一步了解該實(shí)體的重要程度。本功能可以用來(lái)支撐需求變更影響評(píng)估的應(yīng)用。
實(shí)體差異分析
實(shí)體差異分析是對(duì)元數(shù)據(jù)的不同實(shí)體進(jìn)行檢查,用圖形和表格的形式展現(xiàn)它們之間的差異,包括名字、屬性及數(shù)據(jù)血緣和對(duì)系統(tǒng)其他部分影響的差異等,在數(shù)據(jù)系統(tǒng)中存在許多類(lèi)似的實(shí)體。這些實(shí)體(如數(shù)據(jù)表)可能只有名字上或者是在屬性中存在微小的差異,甚至有部分屬性名字都相同,但處于不同的應(yīng)用中。由于各種原因,這些微小的差異直接影響了數(shù)據(jù)統(tǒng)計(jì)結(jié)果,數(shù)據(jù)系統(tǒng)需要清楚了解這些差異。本功能有助于進(jìn)一步統(tǒng)一統(tǒng)計(jì)口徑,評(píng)估近似實(shí)體的差異
指標(biāo)一致性分析
指標(biāo)一致性分析是指用圖形化的方式來(lái)分析比較兩個(gè)指標(biāo)的數(shù)據(jù)流圖是否一致,從而了解指標(biāo)計(jì)算過(guò)程是否一致。該功能是指標(biāo)血緣分析的一種具體應(yīng)用。指標(biāo)一致性分析可以幫助用戶清楚地了解到將要比較的兩個(gè)指標(biāo)在經(jīng)營(yíng)分析數(shù)據(jù)流圖中各階段所涉及的數(shù)據(jù)對(duì)象和轉(zhuǎn)換關(guān)系是否一致,幫助用戶更好地了解指標(biāo)的來(lái)龍去脈,清楚理解分布在不同部門(mén)且名稱相同的指標(biāo)之間的差異,從而提高用戶對(duì)指標(biāo)值的信任。
元數(shù)據(jù)對(duì)數(shù)據(jù)系統(tǒng)的數(shù)據(jù)、數(shù)據(jù)加工過(guò)程以及數(shù)據(jù)間的關(guān)系提供了準(zhǔn)確的描述,利用血緣分析、影響分析和實(shí)體關(guān)聯(lián)分析等元數(shù)據(jù)分析功能,可以識(shí)別與系統(tǒng)應(yīng)用相關(guān)的技術(shù)資源,結(jié)合應(yīng)用生命周期管理過(guò)程,輔助進(jìn)行數(shù)據(jù)系統(tǒng)的應(yīng)用優(yōu)化.
企業(yè)數(shù)據(jù)平臺(tái)所存儲(chǔ)的數(shù)據(jù)和提供的各類(lèi)分析應(yīng)用,涉及到公司經(jīng)營(yíng)方面的各類(lèi)敏感信息。因此在數(shù)據(jù)系統(tǒng)建設(shè)過(guò)程中,須采用全面的安全管理機(jī)制和措施來(lái)保障系統(tǒng)的數(shù)據(jù)安全。
數(shù)據(jù)系統(tǒng)安全管理模塊負(fù)責(zé)數(shù)據(jù)系統(tǒng)的數(shù)據(jù)敏感度、客戶隱私信息和各環(huán)節(jié)審計(jì)日志記錄管理,對(duì)數(shù)據(jù)系統(tǒng)的數(shù)據(jù)訪問(wèn)和功能使用進(jìn)行有效監(jiān)控。為實(shí)現(xiàn)數(shù)據(jù)系統(tǒng)對(duì)敏感數(shù)據(jù)和客戶隱私信息的訪問(wèn)控制,進(jìn)一步實(shí)現(xiàn)權(quán)限細(xì)化,安全管理模塊應(yīng)以元數(shù)據(jù)為依據(jù),由元數(shù)據(jù)管理模塊提供敏感數(shù)據(jù)定義和客戶隱私信息定義,輔助安全管理模塊完成相關(guān)安全管控操作。
數(shù)據(jù)系統(tǒng)項(xiàng)目開(kāi)發(fā)的主要環(huán)節(jié)包括:需求分析、設(shè)計(jì)、開(kāi)發(fā)、測(cè)試和上線。開(kāi)發(fā)管理應(yīng)用可以提供相應(yīng)的功能,對(duì)以上各環(huán)節(jié)的工作流程、相關(guān)資源、規(guī)則約束、輸入輸出信息等提供管理和支持。
慧都大數(shù)據(jù)分析平臺(tái),將學(xué)習(xí)、推理、思考、預(yù)測(cè)、規(guī)劃等能力賦予企業(yè)數(shù)據(jù),讓數(shù)據(jù)驅(qū)動(dòng)決策,創(chuàng)造最高業(yè)務(wù)價(jià)值。
歡迎撥打慧都熱線023-68661681或咨詢,我們將幫您轉(zhuǎn)接大數(shù)據(jù)專(zhuān)業(yè)團(tuán)隊(duì),并發(fā)送相關(guān)資料給您!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn