轉帖|行業資訊|編輯:郝浩|2016-06-24 11:07:03.000|閱讀 161 次
概述:許多公司都在為管理海量數據不斷努力。以前,他們都使用數據倉庫平臺,用這種傳統架構在處理來自內部和外部數據源的數據時有很大困難,這些數據的結構和內容類型通常非常多樣化,但Hadoop可以對此場景提供幫助。Hadoop是一款分布式處理架構,專門用來處理復雜的海量大數據,處理結構化、非結構化和半結構化數據混雜的場景。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
許多公司都在為管理海量數據不斷努力。以前,他們都使用數據倉庫平臺,用這種傳統架構在處理來自內部和外部數據源的數據時有很大困難,這些數據的結構和內容類型通常非常多樣化,但Hadoop可以對此場景提供幫助。Hadoop是一款分布式處理架構,專門用來處理復雜的海量大數據,處理結構化、非結構化和半結構化數據混雜的場景。
Hadoop的部分優勢在于,它有許多種開源組件和相關工具,可以完成數據捕獲、處理、管理和分析工作。為了幫助用戶利用好該框架,許多供應商提供了商業版Hadoop分布式產品,它們在Hadoop基礎之上提供了性能和功能方面的擴展,并提供對該框架的維護和支持服務。
Hadoop運行在商用服務器集群環境中,這種環境通常用來支持數據分析而不是聯機事務處理應用。有幾種更加通用的分析應用案例可以很好地展示Hadoop分布式數據處理和并行計算模型:
支持以上這些應用場景的應用都可以基于Hadoop構建,可以使用一些典型的實現方法。說明如下:
Hadoop是低成本高性能的計算框架,可以處理各種IT和業務場景中組織對擴展處理能力或者擴展數據管理能力的需求。下面總結一下應用需求的特點以及建議選擇的基于Hadoop分布式應用的數據管理平臺。
獲取和處理大數據規范集、大規模非結構化數據和流式數據。例如,捕獲包含數十億在線事件信息的Web服務器日志;跨不同數據集索引億級文檔;從眾多渠道持續拉取數據流(諸如:社交媒體渠道、證券市場數據、新聞發布源和專家團隊發布的內容等渠道)。
盡管把Hadoop平臺整合到企業應用中是完全可行的,但使用Hadoop獲益仍然要考慮權衡。因為許多組織已經在傳統數據倉庫平臺上做了巨大投資,因此引入更新的技術可能會遇到一些阻力。在引入Hadoop分布式產品供應商之前,需要先解決潛在的障礙,評估集群規模和配置需求。
例如,要判斷Hadoop集群如何與組織的數據倉庫和分析策略融合,判斷是否可以增強現有數據倉庫功能甚至替換它。另外,要判斷整合和交互方面需要處理的問題,審查配置可替代物,包括是否可以更有利于實施內部Hadoop生態系統,或者基于云或者托管環境。此外,要確保你已經聘用了具備相應技能的員工或者對現有職員進行再培訓。Hadoop應用開發與傳統數據庫開發差異是很大的。
本文轉載自
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn