翻譯|大數(shù)據(jù)新聞|編輯:況魚杰|2020-11-30 11:05:31.900|閱讀 209 次
概述:如何在商品服務(wù)器和存儲上運行要求苛刻的分析應(yīng)用程序和/或1000多個節(jié)點Hadoop工作負載。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
如果您已經(jīng)使用Hadoop集群一段時間了。那么您肯定已經(jīng)有50到100個節(jié)點在穩(wěn)定運行,并且已經(jīng)掌握了一些分析框架--無論是Spark還是Flink還是老式的Map-Reduce。這個時期的您已經(jīng)能夠從集群中展示出真正的商業(yè)價值,已經(jīng)準(zhǔn)備好用更多的數(shù)據(jù)和更多的應(yīng)用和用戶將其提升到一個全新的水平。那么怎么提高水平呢?首先集群的硬件可能不是一個大問題,因為您做了Hadoop,所以您會選擇典型的商品服務(wù)器機架,每個有12或24個硬盤驅(qū)動器。但是這個時候為什么不考慮另外不同的硬件呢?
因為當(dāng)你的集群規(guī)模接近許多數(shù)百個節(jié)點時,它肯定會成為你的數(shù)據(jù)中心中最大的集群,甚至可能成為你計算基礎(chǔ)設(shè)施的大部分。在這種規(guī)模下,由于資源不平衡造成的效率低下,會造成大量時間、金錢、電力、熱量和空間的浪費。
即使您認為您的CPU和存儲今天很平衡,但是,隨著應(yīng)用和框架的發(fā)展,數(shù)據(jù)變得更大,CPU變得更快,它們將不會平衡。第二年買的CPU會比去年快一倍;磁盤仍然很慢,但容量巨大。只是無法預(yù)測CPU和存儲之間的正確平衡,所以你需要的是靈活性。
這種靈活性是通過將磁盤與CPU節(jié)點進行分解/分離來實現(xiàn)的。但要小心傳統(tǒng)的NAS和SAN解決方案--它們與 "商品 "硬件相差甚遠,會超出您的預(yù)算,同時又難以達到Hadoop需要的性能水平。尋找具有機架規(guī)模架構(gòu)的解決方案,這些解決方案可以最大限度地提高您的靈活性,同時保持Hadoop所需的高性能和低成本。整個大數(shù)據(jù)運動是由非常廉價的存儲所促成的,所以不要被鎖定在傳統(tǒng)的 "鍍金 "存儲解決方案中。
一旦存儲從CPU節(jié)點中移除,您就有了更廣泛的CPU/內(nèi)存組合選擇。考慮一下2013/4年的 "經(jīng)典 "Hadoop節(jié)點--12個CPU核心,約64GB內(nèi)存。您可以輕松買得起36到40個核心節(jié)點,512GB的內(nèi)存(而且核心和內(nèi)存都快了很多)。即使您的傳統(tǒng)Map/Reduce應(yīng)用在較小的CPU上受到I/O限制,轉(zhuǎn)移到更大、更強壯的CPU節(jié)點上也可以消除大量的通信和序列化開銷。Spark和其他較新的框架可以極大地受益于CPU中更大的內(nèi)存量,因為幾個大的緩存比相同數(shù)量的緩存分布在更多節(jié)點上更有效率。
而且不要吝嗇網(wǎng)絡(luò),任何低于10Gbps的數(shù)據(jù)對于現(xiàn)在的服務(wù)器來說就像在吸管里呼吸一樣,如果您已經(jīng)把磁盤分開了,那么這些流量也在網(wǎng)絡(luò)上。即使您無法控制網(wǎng)絡(luò)主干帶寬,在 "機架 "上增加帶寬也能給Hadoop帶來很大的幫助。
因此,在進入大規(guī)模Hadoop項目之前,請先仔細考慮一下,并確保您的硬件計劃考慮到當(dāng)今的技術(shù),而不僅僅是人們在前幾年取得的成功。
慧都數(shù)倉建模大師能夠快速、高效地幫助客戶搭建數(shù)據(jù)倉庫供企業(yè)決策分析之用。滿足數(shù)據(jù)需求效率、數(shù)據(jù)質(zhì)量、擴展性、面向主題等特點。基于企業(yè)的業(yè)務(wù)目標(biāo),進行數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模,最后進行評價和部署,真正實現(xiàn)數(shù)據(jù)驅(qū)動業(yè)務(wù)決策。更多詳情,請。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn