原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-07-18 10:18:47.000|閱讀 455 次
概述:前段時(shí)間BigInsights V4.1發(fā)布時(shí),首次將強(qiáng)大的Hadoop擴(kuò)展至Power平臺(tái)之上,但僅限于產(chǎn)品中的開源組件,如HDFS/YARN/HBASE/HIVE等。如今最新產(chǎn)品更新包的發(fā)布使得BigInsights中的其他IBM增加組件:BigSQL、BigR等,也可以輕松運(yùn)行在Power之上。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
前段時(shí)間 V4.1發(fā)布時(shí),首次將強(qiáng)大的Hadoop擴(kuò)展至Power平臺(tái)之上,但僅限于產(chǎn)品中的開源組件,如HDFS/YARN/HBASE/HIVE等。如今最新產(chǎn)品更新包的發(fā)布使得BigInsights中的其他IBM增加組件:BigSQL、BigR等,也可以輕松運(yùn)行在Power之上。
眾多開源組件:IBM對開源社區(qū)的的持續(xù)投入和大力支持,終究會(huì)反饋到產(chǎn)品中,如目前中更新了如下重要組件:Spark更新至1.4.1,Ambari 更新至2.1, Hadoop版本更新至2.7.1。
IBM BigSQL: IBM持續(xù)在企業(yè)級SQL on Hadoop上的投入,使得Big SQL功能不斷完善,本次更新包括:可以和Yarn集成提高了管理性;BigSQL的函數(shù)庫實(shí)現(xiàn)了K-Means分類算法和樸素貝葉斯算法,進(jìn)一步增強(qiáng)了SQL分析能力;增強(qiáng)了組件的高可用,現(xiàn)在對所有組件都可支持HA,如下圖顯示了在擁有6個(gè)管理節(jié)點(diǎn)的大型集群(超過100個(gè)節(jié)點(diǎn))中,BigSQL 管理服務(wù)BigSQL Head Node和Big SQL Scheduler的HA配置:
Big R: 新增機(jī)器學(xué)習(xí)算法的分布式實(shí)現(xiàn),包括:決策樹、隨機(jī)森林和逐步回歸算法,讓熟悉R的數(shù)據(jù)科學(xué)家更方便的將R應(yīng)用擴(kuò)展至Hadoop集群。
文本分析:增強(qiáng)了文本分析能力,包括將文本分析結(jié)果導(dǎo)出成CSV格式,直接通過BigSheet查看結(jié)果及增加了文本分析項(xiàng)目快照功能。
BigInsights on Power:所有組件均支持運(yùn)行在Power平臺(tái)之上。
在所有的增強(qiáng)中,最重要的是最后一點(diǎn),即全面支持Power,這甚至可以成為的獨(dú)門絕技!為什么可以這么說? 我們先來看看Power 8 中的眾多技術(shù)升級中,給在Power平臺(tái)上運(yùn)行Hadoop帶來的好處:
CPU的增強(qiáng):Power 8 的CPU并行處理能力大幅增強(qiáng),每通道可支持12 核CPU,每核支持 8 線程(比Power7提高2倍),并可動(dòng)態(tài)切換SMT1到SMT8的8種模式,非常適合支持混合型的工作負(fù)載,能更好的支持各種高階數(shù)據(jù)分析任務(wù),如:分群算法、分類算法、特征提取任務(wù)以及文本分析、自然語義分析任務(wù)等。
緩存系統(tǒng)的增強(qiáng):Power8的內(nèi)存比Power7增加了2.3 倍, CPU內(nèi)部的多級緩存也增強(qiáng)了3倍,這可以讓類似于HBASE這樣對緩存敏感的計(jì)算任務(wù)執(zhí)行得更快。
IO系統(tǒng)的增強(qiáng):Power 8 集成了第三代PCIe技術(shù),帶來高達(dá)192GB/秒的I/O帶寬,比Power7 提高了2.4倍,可以讓MapReduce作業(yè)無需任何優(yōu)化即可將效率提升2倍以上,更適合于大數(shù)據(jù)量數(shù)據(jù)加載和處理。
對Java性能的優(yōu)化:POWER系統(tǒng)專門對 IBM Java技術(shù)進(jìn)行了優(yōu)化, 相同的任務(wù)運(yùn)行在Power上比運(yùn)行在同等配置的X86環(huán)境快24倍之多。
那么,這些Power平臺(tái)的增強(qiáng)到底對運(yùn)行Hadoop有什么意義呢?我們以中帶有的、常見Hadoop組件HBASE為例進(jìn)行分析:
HBASE是Hadoop中主流的NOSQL DB技術(shù)的一種,可以提供低延時(shí)的Key-Value數(shù)據(jù)的查詢和處理;HBASE以表、行的形式存儲(chǔ)數(shù)據(jù),數(shù)據(jù)表被分割為多個(gè)數(shù)據(jù)分區(qū),每個(gè)數(shù)據(jù)分區(qū)由物理上獨(dú)立的Region Server組件進(jìn)行管理;類似于MapRduce作業(yè),HBASE在進(jìn)行數(shù)據(jù)操作時(shí)需要大量IO開銷,通常這些會(huì)成為HBase的性能瓶頸,在如下表格中總結(jié)了HBASE的主要數(shù)據(jù)操作對平臺(tái)資源的要求:
通過以上表格可以看出,HBASE的性能通常局限在緩存、內(nèi)存、磁盤,而Power8針對這些方面的優(yōu)化,可以極大改善HBASE應(yīng)用的性能!在對比測試中,在同等條件下的Power和X86大數(shù)據(jù)平臺(tái)分別運(yùn)行Terasort測試,Power比X86平臺(tái)快出2.5倍!
當(dāng)然,對于使用Power運(yùn)行Hadoop, 很多人會(huì)關(guān)心成本問題,我們先看看某客戶的大數(shù)據(jù)平臺(tái)遷移項(xiàng)目(從X86遷移到Power8),為達(dá)到同樣的處理能力,X86和Power所需要的資源配置分別如下:
在該客戶環(huán)境的實(shí)際使用結(jié)果中,POWER8 提供了原X86平臺(tái)相同的計(jì)算能力,卻使用了更少的資源,主要包括:
只使用了1/5數(shù)量的服務(wù)器 --> 減少了管理成本;
只使用了1/5數(shù)量的CPU內(nèi)核 --> 減少商業(yè)Hadoop軟件的成本;
只使用了1/5 的機(jī)房空間 --> 減少基礎(chǔ)設(shè)施成本。
因此,從以上的例子可以看出,使用Power搭建大數(shù)據(jù)平臺(tái),不一定會(huì)比使用X86貴喲! 特別在很多客戶已經(jīng)具有Power設(shè)備、可對設(shè)備進(jìn)行利舊使用的情況下,使用Power的成本反而會(huì)更低:使用BigInsights在Power環(huán)境上搭建大數(shù)據(jù)平臺(tái),前5個(gè)服務(wù)器節(jié)點(diǎn)的軟件授權(quán)完全免費(fèi)! 如果您的企業(yè)剛好有可以利用的Power設(shè)備,何不馬上試試!
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn