原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-07-15 09:57:03.000|閱讀 475 次
概述:一款功能豐富、使用簡單的數(shù)據(jù)處理工具無疑可以帶來極大的幫助,可以為業(yè)務(wù)人員、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家節(jié)省大量的時間和精力。BigSheets就是這樣一款設(shè)計用來處理海量數(shù)據(jù)的圖形化工具。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
的魅力在于提供了廉價的分布式數(shù)據(jù)存儲和數(shù)據(jù)處理框架,讓我們以極低的成本保存和處理海量數(shù)據(jù)。然而純開源的Hadoop對使用者的技能仍然有較高要求:熟悉Java、Mapreduce接口才能編寫數(shù)據(jù)處理程序;熟悉Hive sql或者Pig等才能使用各種工具語言編寫數(shù)據(jù)處理邏輯。
對于大部分?jǐn)?shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來說,學(xué)習(xí)這些技能并不難,然而學(xué)習(xí)、使用這些底層的技能會消耗大量寶貴的時間,因此一款功能豐富、使用簡單的數(shù)據(jù)處理工具無疑可以帶來極大的幫助,可以為業(yè)務(wù)人員、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家節(jié)省大量的時間和精力。BigSheets就是這樣一款設(shè)計用來處理海量數(shù)據(jù)的圖形化工具。
是對大數(shù)據(jù)進行數(shù)據(jù)處理、數(shù)據(jù)分析的電子表格工具,內(nèi)置支持多種數(shù)據(jù)源,提供數(shù)據(jù)過濾、內(nèi)容補全等多種實用的數(shù)據(jù)處理功能,可以合并和處理不同表格中的數(shù)據(jù),也可以通過圖表的形式對數(shù)據(jù)進行可視化展現(xiàn),并提供了豐富的數(shù)據(jù)導(dǎo)入導(dǎo)出接口。
在用戶和之間建立了一整套數(shù)據(jù)處理框架:用戶在瀏覽器界面創(chuàng)建工作簿, 根據(jù)需要定義數(shù)據(jù)過濾、數(shù)據(jù)轉(zhuǎn)換的處理流程;BigSheets引擎將前端輸入的處理流程轉(zhuǎn)換為可執(zhí)行的作業(yè)(Pig);BigSheets在樣本數(shù)據(jù)上運行數(shù)據(jù)處理流程,將結(jié)果展現(xiàn)給用戶進行預(yù)覽,等待確認(rèn);用戶確認(rèn)后,BigSheets將運算邏輯運行在全量數(shù)據(jù)上,并得到最終的處理結(jié)果。BigSheets的架構(gòu)如下圖所示:
本示例中展示了如何使用BigSheets對海量訂單數(shù)據(jù)進行處理,演示了基本的數(shù)據(jù)處理,包括:數(shù)據(jù)解析、過濾、排序、合并和結(jié)果處理。需要處理的訂單數(shù)據(jù)已提前上傳至HDFS目錄中。
步驟1, 登錄BigSheets界面:
提供基于瀏覽器的管理界面和用戶交互界面,除了最基本的Hadoop組件HDFS/Yarn/Mapreduce外,BigSheets還依賴BigInsightsHome和Knox服務(wù):BigInsightsHome服務(wù)提供了IBM增值組件(BigSheets/BigSQL/TextAnalytics)的統(tǒng)一訪問界面;Knox為外部訪問者提供了安全、統(tǒng)一的訪問入口。
在瀏覽器地址欄輸入地址: //<管理節(jié)點
IP>:8443/gateway/default/BigInsightsWeb/index.html 訪問,可使用默認(rèn)用戶guest/guest-password登陸:
步驟2, 將數(shù)據(jù)導(dǎo)入HDFS,并新建工作簿(Workbook):
可以從本地文件/目錄或者HDFS文件/目錄創(chuàng)建BigSheets工作簿。BigSheets內(nèi)置了多種數(shù)據(jù)解析器,包括:基本的網(wǎng)絡(luò)爬蟲數(shù)據(jù),字符分割數(shù)據(jù),CSV格式文本數(shù)據(jù),Hive數(shù)據(jù)解析器,JSON數(shù)據(jù)解析器 和TSV數(shù)據(jù)等。下圖展現(xiàn)了從HDFS中的CSV文件中創(chuàng)建Workbook數(shù)據(jù)源:
步驟3, 在生成的工作簿副本中定義數(shù)據(jù)處理邏輯:
從HDFS文件創(chuàng)建的初始工作簿是只讀的,需要復(fù)制為新的工作簿后再增加數(shù)據(jù)處理邏輯。下圖展示了對訂單數(shù)據(jù)按照時間條件進行過濾,提取出需要處理的數(shù)據(jù)子集后,再根據(jù)時間條件進行排序。
通常進行數(shù)據(jù)分析的數(shù)據(jù)源可能來自于多個數(shù)據(jù)源,需要根據(jù)實際情況對數(shù)據(jù)進行處理然后合并,下圖中展示了將不同數(shù)據(jù)源的多余數(shù)據(jù)列刪除,再通過Union操作將多個數(shù)據(jù)源的訂單數(shù)據(jù)進行合并。
提供了大量現(xiàn)成的處理工具,包括:
Filter:過濾不滿足條件的數(shù)據(jù),如用戶名為空等;
Function: 添加數(shù)據(jù)處理函數(shù)(內(nèi)置96種函數(shù)),如對輸入值進行求和;
Load: 從其他工作簿中導(dǎo)入數(shù)據(jù),如合并不同表格中的數(shù)據(jù);
Jion: 關(guān)聯(lián)多個表格中的數(shù)據(jù),類似于SQL語句中的Join;
Group: 數(shù)據(jù)分組:對數(shù)據(jù)進行分組并對每組數(shù)據(jù)進行相應(yīng)的運算;
Union: 數(shù)據(jù)合并,將多個表格中的數(shù)據(jù)合并為一個;
Intersection: 數(shù)據(jù)交集,按指定列獲取兩個或多個表格中的重合數(shù)據(jù),要求數(shù)據(jù)模式相同;
Complement: 數(shù)據(jù)取余,按指定列對數(shù)據(jù)進行取余,要求數(shù)據(jù)模式相同;
Limit: 限制數(shù)據(jù)中處理行數(shù),按照Top(N)等順序?qū)μ幚淼臄?shù)據(jù)量進行處理;
Distinct: 除去表格中的重復(fù)值,每組重復(fù)的至只保留一個;
Copy: 從其他電子表中復(fù)制數(shù)據(jù);
Formula: 添加數(shù)據(jù)處理公式。
定義好數(shù)據(jù)處理流程之后,可以從管理界面通過數(shù)據(jù)流圖的方式,查看數(shù)據(jù)處理過程,如下圖所示:
步驟4, 對全量數(shù)據(jù)進行數(shù)據(jù)處理,并保存結(jié)果:
在編輯數(shù)據(jù)處理過程中,在中看到的顯示結(jié)果,都是對數(shù)據(jù)集里的前2000行數(shù)據(jù)進行模擬處理后,顯示最前面的50行數(shù)據(jù)。確認(rèn)數(shù)據(jù)處理邏輯正確之后,點擊“Run”按鈕運行全量數(shù)據(jù)的處理。
BigSheets會在后臺通過Pig啟動MapReduce作業(yè),并在前臺通過進度條顯示進度。待任務(wù)完成之后,便可以使用數(shù)據(jù)處理結(jié)果了。
常見的三種使用場景如下:在BigSheets中使用數(shù)據(jù),包括通過電子表格查看和畫圖等;為數(shù)據(jù)集創(chuàng)建BigSQL/HIVE數(shù)據(jù)表,再通過SQL/HIVE SQL訪問數(shù)據(jù);將電子表格的數(shù)據(jù)導(dǎo)出到HDFS,供外部使用。下圖展現(xiàn)了如何在BigSheets中導(dǎo)出文件和創(chuàng)建數(shù)據(jù)表:
還可以根據(jù)需要直接畫圖,通過可視化圖表的方式來展現(xiàn)數(shù)據(jù)。BigSheets支持各種常見的圖表,包括餅圖、柱狀圖、折線圖、地理圖等,下圖展現(xiàn)了按照區(qū)域顯示銷售額的餅圖:
大數(shù)據(jù)分析中處理的數(shù)據(jù)量少則TB大到PB,數(shù)據(jù)處理是花費數(shù)據(jù)分析團隊最多時間和精力的工作。BigSheets的數(shù)據(jù)處理能力,可以有效減少數(shù)據(jù)處理過程的開發(fā)和維護時間,是大數(shù)據(jù)分析團隊不可多得的數(shù)據(jù)處理工具之一。
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn