原創(chuàng)|大數(shù)據(jù)新聞|編輯:鄭恭琳|2020-11-23 15:06:23.173|閱讀 373 次
概述:眾所周知,不管是對業(yè)務分析還是數(shù)據(jù)架構,甚至商業(yè)決策,數(shù)據(jù)倉庫(Data Warehouse,DW)都是極其重要的一環(huán)。那么到底什么是數(shù)據(jù)倉庫,它與數(shù)據(jù)庫、數(shù)據(jù)湖有著怎么樣的關聯(lián)?本文為你揭曉。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
數(shù)據(jù)倉庫是信息(對其進行分析可做出更明智的決策)的中央存儲庫。通常,數(shù)據(jù)定期從事務系統(tǒng)、關系數(shù)據(jù)庫和其他來源流入數(shù)據(jù)倉庫。業(yè)務分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學家和決策者通過商業(yè)智能(BI)工具、SQL 客戶端和其他分析應用程序訪問數(shù)據(jù)。
數(shù)據(jù)和分析已然成為各大企業(yè)保持競爭力所不可或缺的部分。企業(yè)用戶依靠報告、控制面板和分析工具從其數(shù)據(jù)中獲得洞察力、監(jiān)控企業(yè)績效以及更明智地決策。數(shù)據(jù)倉庫通過高效地存儲數(shù)據(jù)以便最大限度地減少數(shù)據(jù)輸入和輸出(I/O),并快速地同時向成千上萬的用戶提供查詢結果,為這些報告、控制面板和分析工具 由數(shù)據(jù)倉庫提供支持。
數(shù)據(jù)倉庫的架構包含多個層。頂層是通過報告、分析和數(shù)據(jù)挖掘工具呈現(xiàn)結果的前端客戶端。中間層包括用于訪問和分析數(shù)據(jù)的分析引擎。架構的底層是加載和存儲數(shù)據(jù)的數(shù)據(jù)庫服務器。數(shù)據(jù)使用兩種不同類型的方式存儲:1)經(jīng)常訪問的數(shù)據(jù)存儲在最快的存儲裝置中(例如,SSD 驅(qū)動器),2)不經(jīng)常訪問的數(shù)據(jù)存儲在便宜的對象存儲區(qū)中,數(shù)據(jù)倉庫將自動確保經(jīng)常訪問的數(shù)據(jù)被移進“快速”存儲以便優(yōu)化查詢速度。
數(shù)據(jù)倉庫接收的數(shù)據(jù)源是不同的,要做到有效集成,需要抽取、轉(zhuǎn)換、加載三個步驟,也就是ETL(Extract-Transform-Load)。
數(shù)據(jù)倉庫的優(yōu)勢包括:
通常,企業(yè)使用數(shù)據(jù)庫、數(shù)據(jù)湖和數(shù)據(jù)倉庫的組合來存儲和分析數(shù)據(jù)。
數(shù)據(jù)倉庫是專門為數(shù)據(jù)分析設計的,涉及讀取大量數(shù)據(jù)以了解數(shù)據(jù)之間的關系和趨勢。數(shù)據(jù)庫用于捕獲和存儲數(shù)據(jù),例如記錄事務的詳細信息。
與數(shù)據(jù)倉庫不同,數(shù)據(jù)湖是所有數(shù)據(jù)(包括結構化、半結構化和非結構化數(shù)據(jù))的中央存儲庫。數(shù)據(jù)倉庫要求數(shù)據(jù)使用表格形式進行整理,Schema 通過它發(fā)揮作用。需要采用表格形式以便使用 SQL 來查詢數(shù)據(jù)。但是,并非所有應用程序都要求數(shù)據(jù)為表格形式。有些應用程序,例如大數(shù)據(jù)分析、完整文本搜索和機器學習,即使是對于“半結構化”或完全非結構化的數(shù)據(jù),也能夠進行訪問。
數(shù)據(jù)倉庫與數(shù)據(jù)湖的對比
特性 |
數(shù)據(jù)倉庫 |
數(shù)據(jù)湖 |
數(shù)據(jù) |
來自事務系統(tǒng)、運營數(shù)據(jù)庫和業(yè)務線應用程序的關系數(shù)據(jù) |
所有數(shù)據(jù),包括結構化、半結構化和非結構化 |
Schema |
通常在數(shù)據(jù)倉庫實施之前設計,但是也可以在分析時編寫(寫入型 Schema 或讀取型 Schema) |
寫入在分析時(讀取型 Schema) |
性價比 |
使用本地存儲獲得最快的查詢結果 |
更快地獲得查詢結果,存儲成本較低,計算和存儲分開 |
數(shù)據(jù)質(zhì)量 |
可作為重要事實依據(jù)的高度監(jiān)管數(shù)據(jù) |
任何可以或無法進行監(jiān)管的數(shù)據(jù)(例如原始數(shù)據(jù)) |
用戶 |
業(yè)務分析師、數(shù)據(jù)科學家和數(shù)據(jù)開發(fā)人員 |
業(yè)務分析師(使用監(jiān)管數(shù)據(jù))、數(shù)據(jù)科學家、數(shù)據(jù)開發(fā)人員、數(shù)據(jù)工程師和數(shù)據(jù)架構師 |
分析 |
批處理報告、BI 和可視化 |
機器學習、探索性分析、數(shù)據(jù)發(fā)現(xiàn)、流處理、運營分析、大數(shù)據(jù)和特征分析 |
數(shù)據(jù)倉庫與數(shù)據(jù)庫的對比
特性 |
數(shù)據(jù)倉庫 |
事務數(shù)據(jù)庫 |
適合的工作負載 |
分析、報告、大數(shù)據(jù) |
事務處理 |
數(shù)據(jù)源 |
從多個來源收集和標準化的數(shù)據(jù) |
從單個來源(例如事務系統(tǒng))捕獲的數(shù)據(jù) |
數(shù)據(jù)捕獲 |
批量寫入操作通常按照預定的批處理計劃執(zhí)行 |
針對連續(xù)寫入操作進行了優(yōu)化,因為新數(shù)據(jù)能夠最大程度地提高事務吞吐量 |
數(shù)據(jù)標準化 |
非標準化 Schema,例如星型 Schema 或雪花型 Schema |
高度標準化的靜態(tài) Schema |
數(shù)據(jù)存儲 |
使用列式存儲進行了優(yōu)化,可實現(xiàn)輕松訪問和高速查詢性能 |
針對在單行型物理塊中執(zhí)行高吞吐量寫入操作進行了優(yōu)化 |
數(shù)據(jù)訪問 |
為最小化 I/O 并最大化數(shù)據(jù)吞吐量進行了優(yōu)化 |
大量小型讀取操作 |
數(shù)據(jù)集市是一種數(shù)據(jù)倉庫,用于滿足特定團隊或業(yè)務部門(例如財務、營銷或銷售)的需求。它更小、更集中,并且可能包含最適合其用戶社區(qū)的數(shù)據(jù)匯總。數(shù)據(jù)集市也可以是數(shù)據(jù)倉庫的一部分。
數(shù)據(jù)倉庫與數(shù)據(jù)集市的對比
特性 |
數(shù)據(jù)倉庫 |
數(shù)據(jù)集市 |
范圍 |
集中的多個整合主題領域 |
分散的特定主題領域 |
用戶 |
組織級 |
單個社區(qū)或部門 |
數(shù)據(jù)源 |
多個來源 |
單個或多個來源,或數(shù)據(jù)倉庫中已經(jīng)收集的部分數(shù)據(jù) |
大小 |
較大,可達數(shù)百 GB 到數(shù) PB |
較小,一般不超過數(shù)十 GB |
設計 |
自上而下 |
自下而上 |
數(shù)據(jù)詳細信息 |
完整且詳細的數(shù)據(jù) |
可能包含匯總數(shù)據(jù) |
國內(nèi)最常用的是一款基于Hadoop的開源數(shù)據(jù)倉庫,名為Hive,它可以對存儲在HDFS的文件數(shù)據(jù)進行查詢、分析。
Hive對外可以提供HiveQL,這是類似于SQL語言的一種查詢語言。在查詢時可以將HiveQL語句轉(zhuǎn)換為MapReduce任務,在Hadoop層進行執(zhí)行。
Hive的最大優(yōu)勢在于免費,那其他知名的商業(yè)數(shù)據(jù)倉庫有那些呢?比如Oracle,DB2,Teradata。這里就不多加贅述,感興趣的朋友可以,或在文章下方留言共同交流。
跨行業(yè)數(shù)據(jù)挖掘流程
基于企業(yè)的業(yè)務目標,進行數(shù)據(jù)理解、數(shù)據(jù)準備、數(shù)據(jù)建模,最后進行評價和部署,真正實現(xiàn)數(shù)據(jù)驅(qū)動業(yè)務決策。更多詳情,請。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務必注明出處、不得修改原文相關鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn