原創|行業資訊|編輯:陳俊吉|2016-12-08 10:07:54.000|閱讀 543 次
概述:我們常常會思考什么樣的數據才是大數據,只有數據量大才能真正稱之為大數據嗎?其實不然,大數據的特征應該包括數量、速度,多樣性和精準性這四個方面,也就是通常所說的4個V: Volume,Velocity,Variety 和Veracity。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
我們常常會思考什么樣的數據才是,只有數據量大才能真正稱之為大數據嗎?其實不然,的特征應該包括數量、速度,多樣性和精準性這四個方面,也就是通常所說的4個V: Volume,Velocity,Variety 和Veracity。如下圖所示:
因此,數量大小只是描述大數據的其中一個維度,今天,我們不妨換個思路來聊聊大數據的另一個重要特征:Velocity(速度),看看如何將傳統數據庫中的數據快速、實時、準確地應用到大數據平臺。快速獲取,快速分析,快速應用,快速實現,從而幫助企業提升自身的競爭力并創造巨大的商業價值。
IBM 介紹
InfoSphere Change Data Capture(以下簡稱CDC)用于捕獲源端交易數據庫如DB2,Oracle的數據變化,并實時復制到目標數據庫、消息隊列、以及ETL解決方案(例如IBM InfoSphere DataStage)。
InfoSphere BigInsights由Hadoop分布式文件系統(HDFS)以及Pig,Hive,HBase和ZooKeeper等Hadoop生態系統子項目構成,用于分析和展現基于Apache Hadoop的海量數據。 接下來,我們將通過一個智能電表的應用案例來演示CDC如何將實時的增量數據復制到InfoSphere BigInsights的HDFS中。
系統架構
在下圖所示的系統架構中,源端各種異構平臺的傳統數據庫所產生的變化數據通過CDC的復制引擎源源不斷的流向目標端 InfoSphere BigInsights 大數據平臺,所有關系型結構化數據的實時更新都會以文件的形式或格式存儲在HDFS文件系統中。
應用場景:智能電表系統
某公共事業公司利用智能儀表采集客戶日常使用水,電,煤氣等數據信息,這些信息的數據量龐大且實時變化快,通過分析這些儀表數據能及時了解客戶的使用模式和習慣,以及費用開銷。比如說該公司通過測量高峰期的用電量,能夠收取更多的費用,能夠設置客戶用電的使用上限,可以創建激勵機制讓客戶在特殊時段減少用電量等等。
該公司通過構建InfoSphere CDC + InfoSphere BigInsights的智能電表系統來實現以上這些業務功能,即CDC捕獲電表系統的變化數據,并實時復制到BigInsights的HDFS文件系統,接著BigInsights對傳送過來的實時海量數據進行復雜計算和模型分析,從而及時準確地響應了以上業務需求。
配置CDC到BigInsights(HDFS)的數據復制
安裝并初始化InfoSphere BigInsights運行環境
1)首先,需要完成InfoSphere BigInsights的安裝,安裝完成后,Hadoop集群環境也隨之搭建好了。然后,我們要確認環境變量是否設置正確
* CLASSPATH是否指向包含Hadoop核心Jar包的路徑。
* HADOOP_CONF_DIR是否指向包含Hadoop配置文件的路徑。
如果以上環境變量沒有設置,我們也可以運行BigInsights自帶的腳本程序biginsights-env.sh進行自動化設置,該腳本所在目錄為
BigInsights_install_dir/conf.
2)缺省情況下,環境變量CLASSPATH僅包含Hadoop的核心JAR包hadoop-core-1.0.3.jar,我們還需添加以下JAR包到CLASSPATH中:
* commons-configuration-1.6.jar
* commons-logging-1.1.1.jar
* commons-lang-2.4.jar
這些JAR包路徑為:BigInsights_install_dir/IHC/lib directory/
2. 啟動InfoSphere BigInsights Hadoop集群中的HDFS組件
InfoSphere BigInsights本身已集成了很多Hadoop組件,例如Apache MapReduce, HDFS, Hive, Catalog, HBase, Oozie等等,這些服務可以通過InfoSphere BigInsights控制臺或命令行啟動。例如在Web瀏覽器中打開InfoSphere BigInsights管理控制臺:
//server:8080/data/html/index.html#redirect-welcome
然后,在管理控制臺中選擇并啟動HDFS服務.
3. 安裝InfoSphere CDC for InfoSphere BigInsights,
并在BigInsights中創建HDFS目錄
在InfoSphere BigInsights管理控制臺中選中“Files”標簽.
如下圖所示,創建HDFS目錄,用于寫入CDC從源端數據庫中捕獲并復制過來的增量數據.
創建CDC實例
在CDC實例中創建預訂(Subscription),并將源端數據庫的表映射到剛剛已創建的HDFS目錄中的某個文件。HDFS目錄格式為:
hdfs://your-server:9000/目錄名稱/文件名
啟動CDC復制數據并查看目標端所生成的HDFS文件
經過以上步驟,我們已完成了BigInsights和CDC的安裝及配置,接下來便可啟動CDC預訂開始數據的實時復制了
當我們回到BigInsights的管理控制臺,選中“File”標簽,可以觀察到在指定的HDFS目錄路徑下已生成從源端復制過來的增量數據。
可能有人會問,InfoSphere CDC 難道只能和IBM自家的大數據平臺BigInsights集成嗎?當然不是,CDC能提供對各大Hadoop廠商的廣泛支持,例如:HortonWorks Data Platform(HDP),Cloudera CDH,Apache Hadoop等。
如果大家感興趣的話,歡迎與我們聯系!
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn