翻譯|使用教程|編輯:龔雪|2019-05-13 17:52:28.537|閱讀 591 次
概述:Microsoft SQL Server 是一款非常強(qiáng)大的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。日前,Microsoft公司公布最新版SQL Server 2019(預(yù)覽版)!此版本包含來(lái)自 CTP 歷史版本的改進(jìn)功能,可修復(fù) bug、增強(qiáng)安全性和優(yōu)化性能。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
Microsoft SQL Server 是一款非常強(qiáng)大的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。日前,Microsoft公司公布最新版SQL Server 2019(預(yù)覽版)!此版本包含來(lái)自 CTP 歷史版本的改進(jìn)功能,可修復(fù) bug、增強(qiáng)安全性和優(yōu)化性能。
SQL Server 2019 大數(shù)據(jù)集群是其中一項(xiàng)重大改進(jìn)。SQL Server 2019 大數(shù)據(jù)集群使您可以使用您選擇的軟件來(lái)適應(yīng)大數(shù)據(jù)的機(jī)器學(xué)習(xí)模型,并使用這些模型來(lái)執(zhí)行評(píng)分。事實(shí)上,流行的開(kāi)源大數(shù)據(jù)框架Apache Spark TM現(xiàn)已內(nèi)置!Apache Spark TM包含MLlib機(jī)器學(xué)習(xí)庫(kù),開(kāi)源社區(qū)開(kāi)發(fā)了大量附加軟件包,這些軟件包集成并擴(kuò)展了Apache Spark TM和MLlib。
新版SQL Server 2019(預(yù)覽版)免費(fèi)下載
手動(dòng)選擇和調(diào)整機(jī)器學(xué)習(xí)模型需要熟悉各種模型類型,并且可能費(fèi)力且耗時(shí)。最近推出了用于自動(dòng)化該過(guò)程的軟件,使新手和專家數(shù)據(jù)科學(xué)家和ML工程師免除了手動(dòng)模型選擇和調(diào)整帶來(lái)的大部分負(fù)擔(dān)。
H2O為大數(shù)據(jù)提供了流行的開(kāi)源軟件,用于數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí),包括Apache Spark TM集成。它提供了兩個(gè)開(kāi)源的python AutoML類:h2o.automl.H2OAutoML和pysparkling.ml.H2OAutoML。兩個(gè)API都使用相同的底層算法實(shí)現(xiàn),但后者遵循Apache Spark的MLlib庫(kù)的約定,并允許您構(gòu)建包含MLlib變換器的機(jī)器學(xué)習(xí)管道。我們將在這篇文章中關(guān)注后一種API。
H2OAutoML可以自動(dòng)將訓(xùn)練數(shù)據(jù)分成訓(xùn)練,驗(yàn)證和排行榜框架。h2o.automl.H2OAutoML API還允許手動(dòng)指定這些幀,這在任務(wù)是使用歷史數(shù)據(jù)訓(xùn)練模型預(yù)測(cè)未來(lái)時(shí)非常有用。
H2OAutoML生成的模型可以持久保存到磁盤,用于Apache Spark TM集群中的預(yù)測(cè)/評(píng)分,在單個(gè)節(jié)點(diǎn)上運(yùn)行的Apache Spark TM中以本地模式使用,或者在具有必要庫(kù)的Java虛擬機(jī)(JVM)中使用在CLASSPATH上。這些選項(xiàng)將允許在Apache Spark TM內(nèi)的SQL Server 2019大數(shù)據(jù)集群中,在Transact-SQL存儲(chǔ)過(guò)程中進(jìn)行批量和實(shí)時(shí)評(píng)分,或部署為應(yīng)用程序。
我們現(xiàn)在可以在連接到SQL Server 2019大數(shù)據(jù)集群的Azure Data Studio中運(yùn)行Apache Spark TM notebook示例?!?/span>點(diǎn)擊查看notebook完整示例】
在這里,您將定義一個(gè)建模管道,將其擬合到訓(xùn)練數(shù)據(jù)上,并使用它來(lái)生成對(duì)測(cè)試數(shù)據(jù)的預(yù)測(cè)。在我們的示例中,我們?cè)O(shè)置maxModels = 2,這導(dǎo)致兩個(gè)基于樹的模型和兩個(gè)(相同的)堆疊集合模型。這足以用于演示目的,但在實(shí)踐中,您應(yīng)該允許H2OAutoML探索更多模型以實(shí)現(xiàn)最佳預(yù)測(cè)指標(biāo)。如果您只是省略maxModels參數(shù),那么H2OAutoML將探索最大maxRuntimeSecs的模型,默認(rèn)為3600秒(1小時(shí))。
使用SQL Server 2019,您不僅可以自動(dòng)選擇和調(diào)整機(jī)器學(xué)習(xí)模型,還可以輕松擴(kuò)展和監(jiān)控大數(shù)據(jù)集群。
使用SQL Server 2019大數(shù)據(jù)集群,可以利用大量計(jì)算和內(nèi)存資源快速高效地大規(guī)模處理數(shù)據(jù)。要擴(kuò)展到大數(shù)據(jù),您可以配置以下參數(shù):(設(shè)置這些參數(shù)的詳細(xì)信息包含在示例notebook中)
SQL Server 2019大數(shù)據(jù)集群包括用于監(jiān)視和診斷的強(qiáng)大工具。示例筆記本包含有關(guān)訪問(wèn)以下圖形用戶界面的說(shuō)明,以便在Apache Spark TM中監(jiān)視,控制和排除運(yùn)行:
監(jiān)控H2O工作進(jìn)度和發(fā)動(dòng)機(jī)狀態(tài)
在本文中,我們已經(jīng)了解到SQL Server在2019年預(yù)覽版中獲得了強(qiáng)大的新功能,并學(xué)習(xí)了如何使用內(nèi)置的Apache Spark TM在大數(shù)據(jù)上運(yùn)行機(jī)器學(xué)習(xí)工作負(fù)載,并能夠利用額外的包您可以選擇H2O的自動(dòng)化機(jī)器學(xué)習(xí)軟件。同時(shí)我們?yōu)g覽了一個(gè)示例Apache Spark TM筆記本,用于自動(dòng)化機(jī)器學(xué)習(xí),可以在Azure Data Studio中針對(duì)SQL Server 2019大數(shù)據(jù)集群運(yùn)行。
想要獲取更多Microsoft SQL Server 2019教程資源,可在評(píng)論區(qū)留言,或點(diǎn)擊查看資源列表。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn