Hadoop教程：淘寶Hadoop集群機(jī)器硬件配置

國內(nèi)外使用Hadoop的公司比較多，全球最大的Hadoop集群在雅虎，有大約25000個節(jié)點(diǎn)，主要用于支持廣告系統(tǒng)與網(wǎng)頁搜索。國內(nèi)用Hadoop的主要有百度、淘寶、騰訊、華為、中國移動等，其中淘寶的Hadoop集群屬于較大的（如果不是最大）。

淘寶Hadoop集群現(xiàn)在超過1700個節(jié)點(diǎn)，服務(wù)于用于整個阿里巴巴集團(tuán)各部門，數(shù)據(jù)來源于各部門產(chǎn)品的線上數(shù)據(jù)庫（Oracle, MySQL）備份，系統(tǒng)日志以及爬蟲數(shù)據(jù)，數(shù)量總量已經(jīng)超過17個PB，每天凈增長20T左右。每天在Hadoop集群運(yùn)行的 MapReduce任務(wù)有超過4萬（有時會超過6萬），其中大部分任務(wù)是每天定期執(zhí)行的統(tǒng)計任務(wù)，例如數(shù)據(jù)魔方、量子統(tǒng)計、推薦系統(tǒng)、排行榜等等。這些任務(wù)一般在凌晨1點(diǎn)左右開始執(zhí)行，3-4個小時內(nèi)全部完成。每天讀數(shù)據(jù)在2PB左右，寫數(shù)據(jù)在1PB左右。

Hadoop包括兩類節(jié)點(diǎn)Master和Slave節(jié)點(diǎn)，

Master節(jié)點(diǎn)包括Jobtracker，Namenode, SecondName, Standby，
- 硬件配置：16CPU*4核，96G內(nèi)存。
Slave節(jié)點(diǎn)主要是TaskTracker和DataNode，
- 硬件配置存在一定的差別：8CPU*4核-16CPU*4核，16G-24G內(nèi)存
- （注：通常是一個slave節(jié)點(diǎn)同時是TaskTracker和DataNode，目的是提高數(shù)據(jù)本地性data locality）。
- 每個slave節(jié)點(diǎn)會劃分成12~24個slots。整個集群約34,916個slots，其中Map slots是19,643個，Reduce slots是15，273個

所有作業(yè)會進(jìn)行分成多個Group，按照部門或小組劃分，總共有38個Group。整個集群的資源也是按各個Group進(jìn)行劃分，定義每個Group的最大并發(fā)任務(wù)數(shù)，Map slots與Reduce slots的使用上限。每個作業(yè)只能使用自己組的slots資源。

來源：馬哥linux運(yùn)維

国产精品青草久-国产精品情侣愉拍-国产精品区网红主-国产精品区一区二-国产精品热久久-国产精品热热热-国产精品人aⅴ-国产精品人成在线-国产精品人妻人伦-国产精品人人

金喜正规买球

Hadoop教程：淘寶Hadoop集群機(jī)器硬件配置

用科技創(chuàng)就卓越

Create excellence with technology