大數(shù)據(jù)時代的數(shù)據(jù)質(zhì)量
無論數(shù)據(jù)是大大小小,是舊數(shù)據(jù)還是新數(shù)據(jù),傳統(tǒng)數(shù)據(jù)還是現(xiàn)代數(shù)據(jù),無論是在內(nèi)部還是在云端,對數(shù)據(jù)質(zhì)量的需求都不會改變。處于從大數(shù)據(jù)和其他新數(shù)據(jù)資產(chǎn)中獲取業(yè)務(wù)價值的壓力下的數(shù)據(jù)專業(yè)人員可以利用現(xiàn)有技能,團隊和工具來確保大數(shù)據(jù)的質(zhì)量。即便如此,僅僅因為您可以利用現(xiàn)有技術(shù)也不意味著這就是您應(yīng)該做的。我們必須使現(xiàn)有技術(shù)適應(yīng)當前時代的要求。
數(shù)據(jù)專業(yè)人員必須調(diào)整,優(yōu)化和擴展數(shù)據(jù)質(zhì)量及相關(guān)數(shù)據(jù)管理最佳實踐,以適應(yīng)大數(shù)據(jù)和類似現(xiàn)代數(shù)據(jù)集的業(yè)務(wù)和技術(shù)要求,才能保護傳統(tǒng)企業(yè)數(shù)據(jù)的質(zhì)量。 除非組織兩者都做,否則它可能無法提供所有數(shù)據(jù)資產(chǎn)所期望的那種可信分析,操作報告,自助服務(wù)功能,業(yè)務(wù)監(jiān)控和治理。
調(diào)整和優(yōu)化使數(shù)據(jù)質(zhì)量任務(wù)與大數(shù)據(jù)相關(guān)
好消息是,組織可以將當前的數(shù)據(jù)質(zhì)量和其他數(shù)據(jù)管理能力應(yīng)用于大數(shù)據(jù)。但是組織仍然需要了解并進行某些調(diào)整和優(yōu)化。熟悉的數(shù)據(jù)質(zhì)量任務(wù)和工具功能與大數(shù)據(jù)和其他有價值的新數(shù)據(jù)資產(chǎn)(從Web應(yīng)用程序,社交媒體,數(shù)字供應(yīng)鏈,SaaS應(yīng)用程序和物聯(lián)網(wǎng))高度相關(guān),如下所示。
-
標準化。廣泛的用戶期望以依賴基于SQL的工具的自助服務(wù)方式探索和使用大數(shù)據(jù)。數(shù)據(jù)質(zhì)量的標準化使大數(shù)據(jù)更適合臨時瀏覽,可視化和查詢。
-
刪除重復(fù)數(shù)據(jù)。大數(shù)據(jù)平臺總是以相同的數(shù)據(jù)加載多次而告終。這會歪曲分析結(jié)果,使度量標準計算不準確,并對運營流程造成嚴重破壞。數(shù)據(jù)質(zhì)量的多種匹配和重復(fù)數(shù)據(jù)刪除方法可以補救數(shù)據(jù)的冗余。
-
匹配。數(shù)據(jù)集之間的鏈接可能很難發(fā)現(xiàn),特別是當數(shù)據(jù)來自傳統(tǒng)和現(xiàn)代的各種源系統(tǒng)時。數(shù)據(jù)質(zhì)量的數(shù)據(jù)匹配功能有助于驗證各種數(shù)據(jù)并確定數(shù)據(jù)集之間的依存關(guān)系。
-
分析和監(jiān)視。許多大數(shù)據(jù)源-例如電子商務(wù),Web應(yīng)用程序和物聯(lián)網(wǎng)(IoT)-缺乏一致的標準,并且無法預(yù)知地發(fā)展其架構(gòu)而無需通知。無論是在開發(fā)中對大數(shù)據(jù)進行概要分析還是在生產(chǎn)中對其進行監(jiān)視,數(shù)據(jù)質(zhì)量解決方案都可以在出現(xiàn)新方案和異常時揭示它們。數(shù)據(jù)質(zhì)量的業(yè)務(wù)規(guī)則引擎和新的智能算法可以自動進行大規(guī)模補救。
-
客戶數(shù)據(jù)。似乎維持有關(guān)客戶的傳統(tǒng)企業(yè)數(shù)據(jù)的質(zhì)量挑戰(zhàn)還不夠,許多組織現(xiàn)在正在從智能手機應(yīng)用程序,網(wǎng)站訪問,第三方數(shù)據(jù)提供商,社交媒體以及不斷增長的客戶渠道和接觸點列表中捕獲客戶數(shù)據(jù)。對于這些組織,客戶數(shù)據(jù)是新的大數(shù)據(jù),所有成熟的數(shù)據(jù)質(zhì)量工具均具有針對客戶領(lǐng)域設(shè)計的功能。這些工具中的大多數(shù)最近已更新,以支持大數(shù)據(jù)平臺和云,以利用它們的速度和規(guī)模。
-
工具自動化。大數(shù)據(jù)是如此之大(大小,復(fù)雜性,來源和用途),以至于數(shù)據(jù)專業(yè)人士和分析人員難以準確,高效地將工作擴展到大數(shù)據(jù)。此外,一些業(yè)務(wù)用戶想要大規(guī)模地以自助方式探索和分析數(shù)據(jù),發(fā)現(xiàn)質(zhì)量問題和機會,甚至自行修復(fù)數(shù)據(jù)。兩種情況都需要工具自動化。
數(shù)據(jù)質(zhì)量工具長期以來一直支持業(yè)務(wù)規(guī)則,以自動做出一些開發(fā)和補救決策。業(yè)務(wù)規(guī)則并沒有消失-多種類型的用戶仍然發(fā)現(xiàn)它們很有用,許多用戶擁有龐大的規(guī)則庫,他們無法放棄。
業(yè)務(wù)規(guī)則與新的自動化方法結(jié)合在一起,新的自動化方法已經(jīng)出現(xiàn)在各種數(shù)據(jù)管理工具中,包括數(shù)據(jù)質(zhì)量工具。這些通常采用智能算法的形式,這些算法基于人工智能和機器學(xué)習(xí)來應(yīng)用預(yù)測功能,以自動確定數(shù)據(jù)狀態(tài),要應(yīng)用的質(zhì)量功能以及如何與開發(fā)人員和用戶協(xié)調(diào)這些動作。
Minitab 是質(zhì)量改進和統(tǒng)計學(xué)教育方面領(lǐng)先的軟件和服務(wù)提供商。Minitab 通過提供一套全面的一流統(tǒng)計分析和過程改進工具,幫助公司和機構(gòu)找出趨勢、解決問題和發(fā)掘?qū)氋F見解。
數(shù)據(jù)質(zhì)量必須采用現(xiàn)代數(shù)據(jù)管理的新范式
必須更改數(shù)據(jù)質(zhì)量的實踐(以及數(shù)據(jù)集成,元數(shù)據(jù)管理和客戶視圖的相關(guān)實踐)以遵循不同的范例。請注意,在以下示例中,大多數(shù)范式轉(zhuǎn)換對于滿足大數(shù)據(jù)分析中的新要求都是必需的。
-
盡早攝取大數(shù)據(jù)。數(shù)據(jù)管理中最強勁的趨勢之一是更快地存儲輸入數(shù)據(jù),以便對時間敏感的流程(如運營報告和實時分析)盡早訪問大數(shù)據(jù)。在這些情況下,持久數(shù)據(jù)優(yōu)先于提高數(shù)據(jù)質(zhì)量。 為了加快數(shù)據(jù)到存儲的持久性,在用戶和進程可以在以后訪問或重新利用大數(shù)據(jù)時進行這些改進的假設(shè)下,最小化或省略了數(shù)據(jù)的前期轉(zhuǎn)換或聚合。
-
實時獲取大數(shù)據(jù)質(zhì)量。這些范式轉(zhuǎn)移的后果是,在讀取或分析時,數(shù)據(jù)聚合和質(zhì)量改進正在不斷地進行中。這使數(shù)據(jù)質(zhì)量執(zhí)行更接近實時。此外,動態(tài)大數(shù)據(jù)質(zhì)量功能有時會嵌入其他解決方案中,尤其是那些用于數(shù)據(jù)集成,報告和分析的解決方案。為了實現(xiàn)嵌入并實現(xiàn)實時性能,現(xiàn)代工具將大多數(shù)數(shù)據(jù)質(zhì)量功能作為服務(wù)提供。幸運的是,當今的快速CPU,內(nèi)存處理,數(shù)據(jù)流水線和MPP數(shù)據(jù)架構(gòu)提供了在大數(shù)據(jù)規(guī)模上即時執(zhí)行數(shù)據(jù)質(zhì)量所需的高性能。
-
保留大數(shù)據(jù)的到達(原始)狀態(tài),以備將來使用。新建立的具有大數(shù)據(jù)的最佳做法是保留從源頭到達時的所有詳細內(nèi)容,結(jié)構(gòu),條件,甚至異常情況。存儲和保護大數(shù)據(jù)的到達狀態(tài)為需要詳細源信息的用例提供了一個龐大的數(shù)據(jù)存儲區(qū)(通常是數(shù)據(jù)湖)。 用例包括數(shù)據(jù)探索,數(shù)據(jù)發(fā)現(xiàn)以及基于挖掘,集群,機器學(xué)習(xí),人工智能以及預(yù)測算法或模型的面向發(fā)現(xiàn)的分析。
-
并行數(shù)據(jù)質(zhì)量。如今,Hadoop,數(shù)據(jù)湖和其他大數(shù)據(jù)環(huán)境的最佳實踐是維護大量的詳細原始數(shù)據(jù)存儲,作為一種源歸檔。用戶無需轉(zhuǎn)換源,而是制作需要質(zhì)量改進的數(shù)據(jù)子集的副本,并將數(shù)據(jù)質(zhì)量功能應(yīng)用于子集。同樣,數(shù)據(jù)科學(xué)家和分析師創(chuàng)建了所謂的數(shù)據(jù)實驗室和沙箱,以在其中改進數(shù)據(jù)以進行分析。這種“并行的數(shù)據(jù)質(zhì)量”對于保留大數(shù)據(jù)的原始價值,同時通過成熟的數(shù)據(jù)質(zhì)量功能創(chuàng)造另一種價值是必要的。
-
上下文相關(guān)的數(shù)據(jù)質(zhì)量。如今,分析用戶傾向于對大數(shù)據(jù)子集進行盡可能少的修改,因為大多數(shù)現(xiàn)代分析方法都傾向于與原始的詳細源數(shù)據(jù)配合使用,并且分析通常依賴于發(fā)現(xiàn)的異常情況。例如,非標準數(shù)據(jù)可能是欺詐的跡象,而異常值可能是新客戶群的預(yù)兆。作為另一個示例,可能需要詳細的源數(shù)據(jù)來準確量化客戶資料,完整視圖和績效指標。
此外,詳細的源數(shù)據(jù)存儲可以重復(fù)地用于未來的分析應(yīng)用程序,這些應(yīng)用程序的數(shù)據(jù)要求無法事先知道。聚合,標準化和完全清除的數(shù)據(jù)不能像到達狀態(tài)的數(shù)據(jù)那樣靈活或廣泛地重新利用。
關(guān)于慧都大數(shù)據(jù)分析平臺
慧都大數(shù)據(jù)分析平臺「GetInsight®」升級發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測、設(shè)備分析及預(yù)測等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運營模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級,抓住數(shù)據(jù)經(jīng)濟的發(fā)展勢頭,提供管理效能,精準布局未來。了解更多,請聯(lián)系。
慧都大數(shù)據(jù)專業(yè)團隊為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺搭建,免費業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。