原創|產品更新|編輯:況魚杰|2020-05-07 14:56:45.417|閱讀 655 次
概述:Cloudera Machine Learning(CML)是Cloudera的新云原生機器學習服務,專為CDP構建。本文將會介紹CML的使用功能,以及Cloudera Machine Learning 和Cloudera Data Science Workbench的聯系。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
Cloudera Machine Learning是Cloudera針對CDP構建的云原生機器學習平臺。Cloudera Machine Learning將自助服務數據科學和數據工程統一在一個便攜式服務中,作為企業數據云的一部分,可對任何位置的數據進行多功能分析。
Cloudera Machine Learning(CML)只是您可以在Cloudera數據平臺(CDP)上使用的眾多體驗之一。 Cloudera Machine Learning使團隊可以立即部署機器學習工作空間,這些工作空間可以自動擴展以適應他們的需求,并可以通過使用kubernetes自動掛起以節省成本。 所有這些都打包成可移植的體驗,多個團隊成員可以輕松訪問這些體驗,以在整個組織中提供一致的體驗。在下面的視頻中,將帶您逐步了解CDP公共云上CML中的各種高級功能。(點擊可查看介紹視頻)
|
|
|
對于數據科學家 |
|
|
在可滿足您的業務和IT要求的平臺上獲取端到端機器學習工作流所需的訪問,工具和計算資源。 |
|
|
|
|
對于IT領導者 |
|
|
在不影響安全性和治理的前提下,為您的團隊提供通過機器學習進行試驗,迭代和影響業務所需的資源。 |
自助式數據訪問
借助Cloudera Machine Learning,管理員可以輕松地在混合和多云環境中復制受控數據集,以使數據科學團隊可以自助訪問他們所需的業務數據,同時保持企業數據安全性和治理控制。
彈性,自動暫停的資源
Cloudera Machine Learning使數據科學團隊可以訪問橫向擴展的異構計算資源,以快速完成工作,同時維護可調節的護欄,以幫助IT部門輕松管理和優化基礎架構資源和成本。
首選的開放軟件工具
除了適用于Spark的Python,R和Scala之外,現代數據科學團隊還需要最新的開源工具和庫來進行創新,并在首選IDE中進行協作。Cloudera機器學習使從業人員可以自由使用自己喜歡的工具,同時保持安全性,效率和可擴展性,而無需管理開銷。
可對云大規模批處理計分
當在本地訓練ML模型但推理數據存儲在云中時,可以對駐留在云存儲中的大量數據進行批評分。IT部門可以使用預先配置的資源利用防護欄來部署ML工作區,數據科學團隊則使用自動縮放/掛起的TensorFlow/Spark作業快速處理數據,不會損失任何成本。
云中數據端到端的ML工作區
Cloudera Machine Learning使IT可以輕松地從本地到云復制受管業務數據,并為具有預先配置的資源消耗防護欄的團隊部署新的ML工作區,提供對模型訓練和部署所需的數據,工具和計算資源訪問使用本地產生的數據。
端到端ML與云中生成的數據
Cloudera Machine Learning使IT人員可以使用預先配置的資源消耗防護欄為團隊部署新的ML工作區,從而使用云中固有的數據提供對模型訓練和部署所需的工具和計算資源的訪問權限。
CML與CDS的對比
CML是Cloudera Machine Learning,CDSW是Cloudera Data Science Workbench。對于現有的Cloudera Data Science Workbench用戶,本主題將有助于重點介紹Cloudera Data Science Workbench與它的原生云產品Cloudera Machine Learning之間的一些關鍵區別。
CML與CDSW有何關系?
CML利用云原生優勢(如快速配置,彈性自動縮放,分布式依賴項隔離和分布式GPU培訓)擴展了Cloudera Data Science Workbench(CDSW)的端到端工作流。它可以運行自己的本機分布式計算工作負載,而無需單獨的CDH群集進行橫向擴展計算。 它旨在在現有Kubernetes環境中的CDP上運行,例如托管云Kubernetes服務(EKS,AKS,GKE)或Red Hat OpenShift,從而在提供多云可移植性的同時為某些客戶降低了運營成本。
兩種產品都可以幫助數據工程師和數據科學團隊通過強大的安全性和治理來提高共享數據和計算的生產力,他們共享大量的代碼。
CML與CDSW的區別
主要區別在于:
CDSW | CML | |
---|---|---|
結構 | CDSW需要CDH或HDP群集,并在群集上的一個或多個專用網關節點上運行。 | CML是自包含的,不需要附加的CDH / HDP群集。 |
1個主主機和多個工作主機的概念。 | 沒有指定的主機和工作主機;所有節點都是短暫的。 | |
安全性 | 通過CDH / HDP集群集成了Kerberos身份驗證;通過LDAP / SAML進行外部身份驗證。 | 通過Cloudera數據平臺(CDP)使用FreeIPA進行集中身份管理。 |
應用存儲 | 項目文件,內部postgresDB和Livelog都永久存儲在Master主機上。 | 所有必需的持久性存儲都在云托管的塊存儲,NFS和關系數據存儲中。 |
計算 | Python / R / Scala工作負載在集群的CDSW網關節點上執行。 | Python / R / Scala工作負載在CDP /云提供商管理的K8s集群上運行。 |
CDSW將分布式計算工作負載(例如YARN上的Spark)推送到CDH / HDP集群。 | 不支持Spark-on-YARN;改為使用Spark-on-K8s 。工作負載將在客戶環境中配置的專用K8s集群上運行。 | |
沒有自動縮放。 | 通過您的云服務提供商進行自動擴展。Kubernetes /節點級自動縮放將用于根據需求擴展/收縮集群大小。 | |
打包 | 作為可下載的RPM和CSD提供。 | 作為CDP上的托管服務提供。 |
Spark與CDH打包在一起。 | K8s上的Spark與CML打包在一起,不依賴于外部集群。 | |
資料存取 | 數據通常駐留在HDFS,Hive,HBase等中的附加CDH / HDP群集上。 | 數據可以駐留在對象存儲(例如S3)上,也可以駐留在向CDP注冊的任何現有工作負載群集上。 |
慧都大數據專業團隊為企業提供Cloudera大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn