翻譯|行業資訊|編輯:況魚杰|2020-08-24 10:34:48.853|閱讀 113 次
概述:本文說明了如何使用Apache Spark將Cloudera數據工程(CDE)用于基于PPP數據生成報告,同時解決上述所有挑戰。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
薪酬保護計劃(PPP)由美國聯邦政府實施,旨在為企業提供直接激勵措施,以使員工保持工資,特別是在Covid-19大流行期間。 PPP幫助合格的企業保留其勞動力,并幫助支付相關業務費用。美國財政部網站的數據顯示了哪些公司獲得了PPP貸款以及保留了多少職位。美國財政部批準了全美大約100萬筆PPP貸款。
對這些數據的分析提出了三個挑戰。首先,數據量很大。提取,整理,轉換,檢索和報告該數據的時間非常耗時。其次,數據集可能會發展,這將消耗額外的開發時間和資源。最后,在這樣的多階段流程中,事情可能會破裂。快速確定錯誤或瓶頸的能力將有助于一致地滿足SLA。
本文說明了如何使用Apache Spark將Cloudera數據工程(CDE)用于基于PPP數據生成報告,同時解決上述所有挑戰。
下面設置了德克薩斯州立法預算委員會(LBB)的模擬方案,以幫助數據工程師管理和分析PPP數據。 該數據工程師的主要目標是向LBB提供兩個最終報告:
這是運行Apache Spark的Cloudera數據工程(CDE)可以提供幫助的地方。 CDE是Cloudera Data Platform(CDP)中的一項服務,它允許數據工程師創建,管理和調度Apache Spark作業,同時提供有用的工具來監視作業性能,訪問日志文件以及通過Apache Airflow編排工作流程。 Apache Spark是一個數據處理框架,能夠快速運行大規模數據處理。
美國財政部提供了兩種不同的數據集,一種用于大于15萬美元的批準貸款,另一種用于15萬美元以下的批準貸款。為了生成LBB的兩個最終報告,請遵循以下步驟。
作業運行完成后,CDE將提供每個Spark作業內各個階段的圖形表示。這使數據工程師可以輕松地查看工作中哪些部分可能花費最多的時間,從而使他們可以輕松地優化和改進代碼,從而最好地滿足客戶的SLA。
實現了從一百萬個批準申請人的記錄中生成兩個最終報告的主要目標。 第一份報告的圖形摘要顯示了得克薩斯州每個城市保留的職位數量的前10個樣本,第二份報告顯示了保留的職位數排名前5的樣本(按公司類型)。 例如,借助這些報告,德克薩斯州立法預算委員會可以推斷出人均保留工作量最少的城市可能需要資源來減輕任何經濟影響。
在 Cloudera,我們相信數據可以使今天的不可能,在明天成為可能。我們使人們能夠將復雜的數據轉換為清晰而可行的洞察力。Cloudera 為任何地方的任何數據從邊緣到人工智能提供企業數據云平臺服務。在開源社區不懈創新的支持下,Cloudera推動了全球最大型企業的數字化轉型歷程。
慧都大數據專業團隊為企業提供Cloudera大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn