轉(zhuǎn)帖|大數(shù)據(jù)產(chǎn)品動態(tài)|編輯:蔣永|2018-11-05 11:00:09.000|閱讀 332 次
概述:Cloudera Data Warehouse又名Cloudera 數(shù)據(jù)倉庫版本,實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)庫向大數(shù)據(jù)的漸進(jìn)式轉(zhuǎn)型!
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
數(shù)據(jù)倉庫系統(tǒng)長期以來一直是企業(yè) IT 架構(gòu)的重要組成部分。隨著開源技術(shù)的不斷發(fā)展以及云端部署方式的不斷深入,傳統(tǒng)數(shù)據(jù)倉庫的局限性日益凸顯,難以適應(yīng)新技術(shù)帶來的市場變革,如何面向大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)倉庫的優(yōu)化、轉(zhuǎn)型是企業(yè) IT 管理者面臨的重要挑戰(zhàn)。處于不同階段的企業(yè)如何應(yīng)用大數(shù)據(jù)技術(shù)?如何面向大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)倉庫轉(zhuǎn)型?如何對現(xiàn)有數(shù)據(jù)倉庫進(jìn)行優(yōu)化?如何在 Hadoop 中進(jìn)行性能優(yōu)化?這些已成為困擾 IT 管理者的主要問題。
1.存儲成本較高,在線保留全量、海量數(shù)據(jù)的目標(biāo)難以實(shí)現(xiàn);
2.元數(shù)據(jù)定義僵化,難以靈活集成多種數(shù)據(jù)源、支持即席查詢;
3.集群管理復(fù)雜、計(jì)算資源有限,缺乏統(tǒng)一的管理接口及水平擴(kuò)展能力;
4.隨著數(shù)據(jù)規(guī)模、用戶規(guī)模的不斷增加,實(shí)時分析(例如:欺詐行為識別)SLA無法滿足;
5.常用的數(shù)據(jù)分析挖掘工具處理全量數(shù)據(jù)時間過長。
數(shù)據(jù)倉庫的訪問不再只限于IT部門,所有部門的用戶都會要求自助訪問全真的數(shù)據(jù),甚至希望無需 IT 部門的協(xié)助便可以自行進(jìn)行數(shù)據(jù)準(zhǔn)備,當(dāng)然,這個過程中的高訪問延遲也是不被接受的。
企業(yè)必須能夠有效地存儲、加工和分析數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)。
流式數(shù)據(jù)為理解和調(diào)整當(dāng)前的業(yè)務(wù)決策創(chuàng)造了新的可能,但前提是我們要具備對流式數(shù)據(jù)進(jìn)行實(shí)時處理的能力。實(shí)時計(jì)算需要新的技術(shù)架構(gòu),不僅要將數(shù)據(jù)流與現(xiàn)有數(shù)據(jù)體系進(jìn)行對接,還要能夠?qū)ζ溥M(jìn)行快速的分析。
起始階段:處于這一階段的大多數(shù)企業(yè)已采購 MPP 硬件搭建數(shù)據(jù)倉庫。為了保證業(yè)務(wù)延續(xù)性,對于起始階段的企業(yè)建議以傳統(tǒng)技術(shù)為主,以大數(shù)據(jù)技術(shù)為輔。例如:ETL 處理仍然放在 MPP 平臺,只是利用 HDFS 做歷史數(shù)據(jù)歸檔,利用 Spark Streaming 做小批量數(shù)據(jù)的實(shí)時處理。
發(fā)展階段:這一階段的企業(yè)用戶已經(jīng)掌握了大數(shù)據(jù)的核心技能,發(fā)展階段建議以大數(shù)據(jù)技術(shù)為主,以傳統(tǒng)技術(shù)為輔。例如:將 ETL 處理全部轉(zhuǎn)移到 Hadoop 平臺,而只將處理邏輯簡單的固定報表部分放在 MPP 上。
成熟階段:建議使用 Hadoop 平臺作為整體架構(gòu),將大數(shù)據(jù)技術(shù)應(yīng)用到極致。
企業(yè)可以選擇從一開始就將整個數(shù)據(jù)倉庫規(guī)劃在 Hadoop 之上。傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)的主要創(chuàng)始人 Ralph Kimball 博士在 2015 年發(fā)表專題演講時證實(shí)了 Hadoop 是可以完全取代 MPP 來建立數(shù)據(jù)倉庫的。在全球范圍內(nèi),有很多企業(yè)已經(jīng)將他們的數(shù)據(jù)倉庫完全建立在 Hadoop 之上。
但是從技術(shù)的角度,有一些數(shù)據(jù)倉庫技術(shù)或工具與 Hadoop 相比已非常成熟,可能已有數(shù)十年的歷史,對于這些長期應(yīng)用的數(shù)據(jù)庫技術(shù),Hadoop 并不具備其中所有的功能或性能。但即便如此,很多用戶仍然選擇把他們的數(shù)據(jù)倉庫構(gòu)建在 Hadoop 架構(gòu)之上,這是為了能夠?qū)崿F(xiàn)更加優(yōu)越的可擴(kuò)展性、更高的性價比,以及更好的靈活性。在實(shí)際應(yīng)用中,即使是規(guī)模只有 5 個節(jié)點(diǎn)的小集群,企業(yè)使用 Hadoop 與其他技術(shù)選項(xiàng)相比,也能夠取得更好的產(chǎn)出、帶來更多的業(yè)務(wù)價值與競爭力。
針對當(dāng)前企業(yè)級數(shù)據(jù)倉庫(EDW)面臨的 ETL 批量作業(yè)運(yùn)行緩慢、BI 報表不能按時生成、業(yè)務(wù)用戶提交的查詢遲遲顯示不了結(jié)果等壓力,結(jié)合當(dāng)前數(shù)倉發(fā)展的趨勢,以及企業(yè)的云化需求,Cloudera 分析型數(shù)據(jù)庫版本進(jìn)行了全面升級,于 2018 年 8 月正式推出了Cloudera Data Warehouse又名Cloudera 數(shù)據(jù)倉庫版本。
Cloudera 分析型數(shù)據(jù)庫已經(jīng)在全球最大的 900 多家組織機(jī)構(gòu)里運(yùn)行,是一款經(jīng)歷過實(shí)戰(zhàn)打磨的產(chǎn)品。升級后的 Cloudera 數(shù)據(jù)倉庫版本提供了企業(yè)級混合云解決方案,包含了混合計(jì)算、混合存儲、混合控制三大關(guān)鍵因素,專為實(shí)惠經(jīng)濟(jì)、強(qiáng)大可擴(kuò)展的自助服務(wù)分析而構(gòu)建。這款產(chǎn)品覆蓋了數(shù)據(jù)倉庫的整個生命周期,包括數(shù)據(jù)接入、存儲、管理、查詢、運(yùn)行狀況檢查等等。
ETL 卸載:將 ETL 任務(wù)從 EDW 遷移到 Cloudera 大數(shù)據(jù)平臺,極大的釋放 EDW 處理能力。基于 Hadoop 大規(guī)模分布式的處理能力,ETL 任務(wù)將以更快的速度運(yùn)行,并為包括 EDW 在內(nèi)的下游系統(tǒng)提供服務(wù),使得之前錯過的 SLA 成為歷史。
自助 BI 和探索性分析:全面開放數(shù)據(jù),所有部門的用戶在其安全策略范圍內(nèi)都能自助訪問全真數(shù)據(jù)。借助 Read on Schema 的靈活性和支持高并發(fā)的查詢能力,開發(fā)人員和分析人員能夠?qū)崿F(xiàn)自助化數(shù)據(jù)探索,擺脫對 IT 部門的依賴,能最快的速度解決新問題。
EDW 優(yōu)化:通過 Cloudera 大數(shù)據(jù)平臺釋放 EDW 處理能力,您可以將 EDW 系統(tǒng)用于更加復(fù)雜的報表生成和熱數(shù)據(jù)處理,在相當(dāng)長的一段時間內(nèi)都無需增加 EDW 存儲或計(jì)算資源。EDW 和 Cloudera 大數(shù)據(jù)平臺的混搭結(jié)構(gòu)可以降低數(shù)據(jù)存儲成本,提高數(shù)據(jù)處理和分析能力,充分發(fā)揮兩套系統(tǒng)各自的技術(shù)優(yōu)勢。
前所未有的數(shù)據(jù)規(guī)模和靈活性:Cloudera 提供單一、可擴(kuò)展的平臺,可以處理不同來源、不同類型的全量數(shù)據(jù),以推動新的業(yè)務(wù)洞察。該版本專為 Read on Schema 功能而設(shè)計(jì),可以快速訪問貼源的全真數(shù)據(jù),甚至支持實(shí)時更新。
高性能和高并發(fā)支持:Cloudera 的平臺提供高性能的 SQL 查詢工具,支持大數(shù)據(jù)量高并發(fā)訪問,因此所有部門的用戶都可以對數(shù)據(jù)進(jìn)行探索性分析。而且,通過與第三方 BI 工具集成,可以沿用業(yè)務(wù)用戶的既有技能。
內(nèi)置安全管控和數(shù)據(jù)治理模塊:開放的數(shù)據(jù)永遠(yuǎn)不會以犧牲安全為代價,因此敏感數(shù)據(jù)的安全至關(guān)重要。 Cloudera 是唯一一個通過 PCI 安全認(rèn)證的 Hadoop 平臺,內(nèi)置安全管控和數(shù)據(jù)治理模塊。無論用戶采取何種方式訪問數(shù)據(jù),只要利用 Cloudera 安全技術(shù)對用戶預(yù)設(shè)置權(quán)限,或者對數(shù)據(jù)預(yù)設(shè)置監(jiān)管策略,您都可以繼續(xù)數(shù)據(jù)探索之旅,而不用擔(dān)心數(shù)據(jù)泄密或越權(quán)訪問。
采用開源技術(shù),可在任何環(huán)境中移植:無論是本地部署,云端還是混合部署都完全適用,避免了技術(shù)鎖定的問題。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自: