轉(zhuǎn)帖|行業(yè)資訊|編輯:龔雪|2014-10-17 09:20:46.000|閱讀 605 次
概述:開(kāi)源Hadoop真的便宜嗎?來(lái)算一下你的IT成本。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷(xiāo)售中 >>
相關(guān)鏈接:
在美國(guó)舉行的2014數(shù)據(jù)倉(cāng)庫(kù)研究所TDWI高峰會(huì)議上,有著豐富數(shù)據(jù)生命周期管理經(jīng)驗(yàn)的咨詢(xún)師Richard Winter做了演講,他指出使用開(kāi)源Hadoop架構(gòu)時(shí),要注意計(jì)算數(shù)據(jù)成本。因?yàn)楹芏嚯[性的成本潛伏在表面免費(fèi)的架構(gòu)中,常常被人忽略。硬件成本只是很少的一部分。
Winter表示:“很多Hadoop的成本并非來(lái)自系統(tǒng)本身,比如開(kāi)發(fā)和管理系統(tǒng)的成本就不容小覷。”
Winter指出,針對(duì)Hadoop集群的應(yīng)用開(kāi)發(fā)和周邊工具集的開(kāi)發(fā)依然是Hadoop發(fā)展中最重要的。總體來(lái)看,Hadoop還是所有數(shù)據(jù)架構(gòu)中比較廉價(jià)的。
不過(guò)Winter建議,數(shù)據(jù)管理者在衡量Hadoop可用性的時(shí)候,應(yīng)該看具體的應(yīng)用類(lèi)型。
計(jì)算IT成本
Hadoop是以Java為基礎(chǔ)的,對(duì)于如何衡量Hadoop的成本,Winter建議道要兼顧存儲(chǔ)、管理、分析、開(kāi)發(fā)和系統(tǒng)成本。在他的研究中,他也引 用了一些一般性數(shù)據(jù),比如他從一個(gè)追蹤薪酬的網(wǎng)站了解到一般Java開(kāi)發(fā)者的薪水,而他要為員工增加50%的一般性開(kāi)銷(xiāo)。Winter還在自己的網(wǎng)站上列 出了更多資料。
Winter還考慮了Hadoop中開(kāi)發(fā)查詢(xún)的成本,這是只有高水平的開(kāi)發(fā)者才能勝任的。同時(shí),他還比較了在數(shù)據(jù)倉(cāng)庫(kù)和Hadoop環(huán)境下做簡(jiǎn)單查詢(xún)和復(fù) 雜查詢(xún)需要的代碼數(shù)和成本有什么不同。他發(fā)現(xiàn),在Hadoop環(huán)境下創(chuàng)建查詢(xún)要復(fù)雜的多,Hadoop文件系統(tǒng)、MapReduce、Java和SQL替代品(比如Hive)等都需要更多的代碼,這是企業(yè)面臨的問(wèn)題。
Winter表示:“只在一小部分公司中,Hadoop應(yīng)用的很廣泛,因?yàn)?這些公司本身有很強(qiáng)大的Java團(tuán)隊(duì)。”而在大多數(shù)公司中,Hadoop的應(yīng)用還很有限。
善用技術(shù)優(yōu)勢(shì)
在峰會(huì)現(xiàn)場(chǎng),Winter采訪了很多與會(huì)者,詢(xún)問(wèn)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目和Hadoop項(xiàng)目的成本問(wèn)題,不同的用戶(hù)給出了截然不同的回答。
如果把所有費(fèi)用都考慮進(jìn)去,用Hadoop重新創(chuàng)建一個(gè)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)要比使用傳統(tǒng)基于SQL的數(shù)據(jù)倉(cāng)庫(kù)貴得多。但如果你需要數(shù)據(jù)分級(jí)處理系統(tǒng)或數(shù)據(jù)池風(fēng)格的應(yīng)用系統(tǒng)支持?jǐn)?shù)據(jù)分析工作,那么Hadoop在還是有成本優(yōu)勢(shì)的,雖然它的花費(fèi)也很多。
Winter指出,Hadoop可以監(jiān)測(cè)大量數(shù)據(jù)中的異常值,哪怕只有細(xì)微變化,工作人員都可以發(fā)現(xiàn)。這在物聯(lián)網(wǎng)領(lǐng)域有很重要的應(yīng)用。以航空公司的引擎數(shù)據(jù)分析為例,只有在數(shù)據(jù)偏離異常值的時(shí)候,數(shù)據(jù)才有被關(guān)注的價(jià)值。
很多因素,包括用例都會(huì)影響技術(shù)類(lèi)型的選擇。比如在系統(tǒng)擁有更多數(shù)據(jù)源、更多用戶(hù)、需要更多查詢(xún)的時(shí)候,久經(jīng)考驗(yàn)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)就能表現(xiàn)出卓越的技術(shù)優(yōu)勢(shì)。但如果情況正相反,你可能就要選擇Hadoop了。
進(jìn)一步講,Hadoop和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)更有可能融合使用。數(shù)據(jù)管理者要做的不只是為應(yīng)用挑選正確的平臺(tái),還要了解不同的技術(shù),同時(shí)采用,分開(kāi)使用。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自:慧都控件網(wǎng)