富腾优配,最好的股票配资平台,股票配资安全的平台,炒股配资利息

檢驗檢測信息管理: 400-686-4199 數據資產管理: 400-643-4668 供應鏈管理: 400-629-4066

有了Ta,數據清洗 so easy!

2020-01-08

主數據來源于多個業務系統且包含大量歷史數據,不可避免地存在錯誤、沖突的數據,這些錯誤的或有沖突的數據就是 "臟數據"。

數據清洗顧名思義就是對“臟數據”進行清洗,是對主數據進行重新審查和校驗的過程,包括檢查主數據一致性、處理無效值和缺失值等,是發現并糾正主數據文件中可識別錯誤的最后一道程序。

數據清洗按照一定的規則把零散、重復、不完整的主數據清洗干凈,得到精確、完整、一致、有效、唯一的主數據,從而提高主數據質量。

數據清洗是一個費時費力但又必不可少的工作。在數據清洗過程中,三維天地將根據客戶的需求制定清洗方案。

主數據清洗方案一般有兩種:

線下清洗

先對主數據進行清洗,導入系統后,系統再上線使用。在數據量不多的情況下,可以直接對數據進行清洗,對常見的幾種數據問題進行逐一排查清洗,具體步驟如下:

第一步:對重復的主數據進行去重;

第二步:對空值進行補充;

第三步:按照主數據標準,對引用值不規范的數據進行統一調整;

第四步:調整主數據值的格式與標準一致;

第五步:刪除冗余數據;

第六步:檢查主數據中與標準不一致的數據項進行逐一調整。

一般情況,線下數據清洗是一個非常龐大的工作,數據質量越差,清洗的工作量就會越大。

為了提高工作效率,三維天地提供清洗工具來輔助清洗工作。既第二種數據清洗方式——線上數據清洗。

線上清洗

線上數據清洗先將初始化數據遷移到系統中,系統上線以后,建立數據清洗模型再對數據進行清洗。具體步驟如下:

第一步:清洗模型申請。新增一個清洗模型,選擇模型編碼,填寫關聯相似度及警告相似度。

第二步:配置清洗模型的顯示列。選擇需要參與清洗對比的列選項(參與相似對比的列必須啟用,且只能是在全文檢索索引設置中啟用),保存成功并提交清洗模型。

第三步:審核清洗模型。審核成功的清洗模型可進行清洗操作。

清洗模型建好后,將要清洗的數據關聯到清洗模型中,根據清洗模型和數據標準對數據進行清洗。大量主數據清洗時,可以劃分階段進行,保證數據清洗范圍可控,不影響系統及相關業務系統的使用。劃分原則可參考數據的申請時間、業務發生時間段、是否有庫存等。

數據清洗過程中往往會出現很多判斷問題,如:數據是否合乎標準,是否存在錯誤等,這些都可以通過相應算法實現判斷。通過主數據清洗,可以保證主數據的唯一性、精確性、完整性、一致性、有效性,為各個應用系統以及后續的分析決策提供高質量的數據保障。

三維天地作為業界領先的信息標準化管理解決方案供應商,致力于為客戶提供全方位高質量的信息標準化管理服務。從客戶的實際需求出發,以先進的技術和定制化的服務贏得客戶的信任和支持。使信息標準化管理得到更全面的推廣,讓更多的企業體會信息標準化管理的魅力,共創信息化管理新時代。