InfoSphere DataStage 是 IBM 統(tǒng)一數(shù)據(jù)集成平臺InfoSphere Information Server的重要組件,是業(yè)界主流的ETL(Extract, Transform, Load)軟件。
InfoSphere Change Data Capture 是一款基于數(shù)據(jù)庫日志的實(shí)時(shí)數(shù)據(jù)復(fù)制產(chǎn)品,可以在跨平臺和異構(gòu)的數(shù)據(jù)庫環(huán)境中實(shí)現(xiàn)變化數(shù)據(jù)的實(shí)時(shí)復(fù)制,在國內(nèi)外的各個(gè)業(yè)務(wù)領(lǐng)域中有著廣泛的應(yīng)用,為客戶在數(shù)據(jù)遷移,數(shù)據(jù)整合,數(shù)據(jù)同步,動(dòng)態(tài)數(shù)據(jù)倉庫,主數(shù)據(jù)管理以及實(shí)時(shí)BI分析等應(yīng)用中提供了出色的解決方案。
InfoSphere DataStage 是 IBM 統(tǒng)一數(shù)據(jù)集成平臺InfoSphere Information Server的重要組件,是業(yè)界主流的ETL(Extract, Transform, Load)軟件。
企業(yè)數(shù)據(jù)往往分布在不同的業(yè)務(wù)子系統(tǒng)中,彼此獨(dú)立,形成多個(gè)信息孤島,如果要進(jìn)行數(shù)據(jù)集成,那么企業(yè)所面臨的一個(gè)關(guān)鍵問題就是如何高效的獲取數(shù)據(jù),同時(shí)又不用花費(fèi)太多的精力和成本?
隨著云時(shí)代的到來,越來越多的企業(yè)將面臨本地資源與云端資源整合的迫切需求,而DataStage on Cloud 則是繼 DataWorks 之后,IBM發(fā)布的又一款重量級云化ETL解決方案!
ETL (數(shù)據(jù)轉(zhuǎn)換)就是對數(shù)據(jù)的合并、清理和整合。通過轉(zhuǎn)換,可以實(shí)現(xiàn)不同的源數(shù)據(jù)在語義上的一致性。拋開大數(shù)據(jù)的概念與基本知識,進(jìn)入核心。我們從:數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)分析與挖掘,四個(gè)方面討論ETL在大數(shù)據(jù)實(shí)際應(yīng)用中涉及的技術(shù)與知識點(diǎn)。