互聯網數據如何清理?
在這個由物聯網(IoT),社交媒體,邊緣計算以及越來越多的計算能力(如量子計算)支持的數字時代,數據可能是任何企業最有價值的資產之一。正確(或不正確)的數據管理將對企業的成功產生巨大影響。換句話說,它可以成敗一個企業。
這就是原因,為了利用這些巨大的數據,無論大小,企業都在使用機器學習和深度學習等技術,以便他們可以建立有用的客戶群,增加銷售量并提高品牌忠誠度。
但是在大多數情況下,由于具有許多收集源和各種格式(結構化和非結構化),數據可能是不準確,不一致和冗余的。
通過向機器學習算法提供具有此類異常的數據,我們是否可以及時,全面地訪問相關信息?
不,當然不!首先需要清除此類數據。
這就是數據清理的地方!
數據清理是建立有效的機器學習模型的第一步,也是最重要的一步。至關重要!
簡而言之,如果尚未清理和預處理數據,則機器學習模型將無法正常工作。
盡管我們經常認為數據科學家將大部分時間都花在修補ML算法和模型上,但實際情況有所不同。大多數數據科學家花費大約80%的時間來清理數據。
為什么?由于ML中的一個簡單事實,
換句話說,如果您具有正確清理的數據集,則簡單的算法甚至可以從數據中獲得令人印象深刻的見解。
我們將在本文中涉及與數據清理相關的一些重要問題:
a.什么是數據清理?
b.為什么需要它?
c.數據清理有哪些常見步驟?
d.與數據清理相關的挑戰是什么?
e.哪些公司提供數據清理服務?
讓我們一起開始旅程,了解數據清理!
數據清洗到底是什么?
數據清理,也稱為數據清理,用于檢測和糾正(或刪除)記錄集,表或數據庫中的不準確或損壞的記錄。廣義上講,數據清除或清除是指識別不正確,不完整,不相關,不準確或其他有問題(“臟”)的數據部分,然后替換,修改或刪除該臟數據。
通過有效的數據清理,所有數據集都應該沒有任何在分析期間可能出現問題的錯誤。
為什么需要數據清理?
通常認為數據清理是無聊的部分。但這是一個有價值的過程,可以幫助企業節省時間并提高效率。
這有點像準備長假。我們可能不喜歡準備部分,但我們可以提前收緊細節,以免遭受這一噩夢的困擾。
我們只需要這樣做,否則我們就無法開始玩樂。就這么簡單!
讓我們來看一些由于“臟”數據而可能在各個領域出現的問題的示例:
a.假設廣告系列使用的是低質量的數據并以不相關的報價吸引用戶,則該公司不僅會降低客戶滿意度,而且會錯失大量銷售機會。
b.如果銷售代表由于沒有準確的數據而未能聯系潛在客戶,則可以了解對銷售的影響。
c.任何規模大小的在線企業都可能因不符合其客戶的數據隱私規定而受到政府的嚴厲處罰。例如,Facebook因劍橋數據分析違規向聯邦貿易委員會支付了50億美元的罰款。
d.向生產機器提供低質量的操作數據可能會給制造公司帶來重大問題。
數據清理涉及哪些常見步驟?
每個人都進行數據清理,但沒人真正談論它。當然,這不是機器學習的“最奇妙”部分,是的,沒有任何隱藏的技巧和秘密可以發現。
盡管不同類型的數據將需要不同類型的清除,但是我們在此處列出的常見步驟始終可以作為一個良好的起點。
因此,讓我們清理數據中的混亂!
刪除不必要的觀察
數據清理的第一步是從我們的數據集中刪除不需要的觀測值。不需要的觀察包括重復或不相關的觀察。
a.在數據收集過程中,最常見的是重復或多余的觀察結果。例如,當我們組合多個地方的數據集或從客戶端接收數據時,就會發生這種情況。隨著數據的重復,這種觀察會在很大程度上改變效率,并且可能會增加正確或不正確的一面,從而產生不忠實的結果。
b.不相關的觀察結果實際上與我們要解決的特定問題不符。例如,在手寫數字識別領域,掃描錯誤(例如污跡或非數字字符)是無關緊要的觀察結果。這樣的觀察結果是任何沒有用的數據,可以直接刪除。
修復結構錯誤
數據清理的下一步是修復數據集中的結構錯誤。
結構錯誤是指在測量,數據傳輸或其他類似情況下出現的那些錯誤。這些錯誤通常包括:
a.功能名稱中的印刷錯誤(typos),
b.具有不同名稱的相同屬性,
c.貼錯標簽的類,即應該完全相同的單獨的類,
d.大小寫不一致。
例如,模型應將錯字和大小寫不一致(例如“印度”和“印度”)視為同一個類別,而不是兩個不同的類別。與標簽錯誤的類有關的一個示例是“不適用”和“不適用”。如果它們顯示為兩個單獨的類,則應將它們組合在一起。
這些結構錯誤使我們的模型效率低下,并給出質量較差的結果。
過濾不需要的離群值
數據清理的下一步是從數據集中過濾掉不需要的離群值。數據集包含離訓練數據其余部分相距甚遠的異常值。這樣的異常值會給某些類型的ML模型帶來更多問題。例如,線性回歸ML模型的穩定性不如Random Forest ML模型強。
但是,離群值在被證明有罪之前是無辜的,因此,我們應該有一個合理的理由刪除一個離群值。有時,消除異常值可以提高模型性能,有時卻不能。
我們還可以使用離群值檢測估計器,這些估計器總是嘗試擬合訓練數據最集中的區域,而忽略異常觀察值。
處理丟失的數據
機器學習中看似棘手的問題之一是“缺少數據”。為了清楚起見,您不能簡單地忽略數據集中的缺失值。出于非常實際的原因,您必須以某種方式處理丟失的數據,因為大多數應用的ML算法都不接受帶有丟失值的數據集。
讓我們看一下兩種最常用的處理丟失數據的方法。
a.刪除具有缺失值的觀察值:
這是次優方式,因為當我們丟棄觀察值時,也會丟棄信息。原因是,缺失的值可能會提供參考,在現實世界中,即使某些功能缺失,我們也經常需要對新數據進行預測。
b.根據過去或其他觀察結果估算缺失值:
這也是次優的方法,因為無論我們的估算方法多么復雜,原始值都會丟失,這總是會導致信息丟失。大數據分析機器學習AI入門指南https://www.aaa-cg.com.cn/data/2273.html由于缺少值可能會提供信息,因此應該告訴我們的算法是否缺少值。而且,如果我們推算我們的價值觀,我們只是在加強其他功能已經提供的模式。
簡而言之,關鍵是告訴我們的算法最初是否缺少值。
那么我們該怎么做呢?
a.要處理分類特征的缺失數據,只需將其標記為“缺失”即可。通過這樣做,我們實質上是添加了新的功能類別。
b.要處理丟失的數字數據,請標記并填充值。通過這樣做,我們實質上允許算法估計缺失的最佳常數,而不僅僅是用均值填充。
與數據清理相關的主要挑戰是什么?
盡管數據清理對于任何組織的持續成功都是必不可少的,但它也面臨著自己的挑戰。一些主要挑戰包括:
a.對引起異常的原因了解有限。
b.錯誤地刪除數據會導致數據不完整,無法準確地“填寫”。
c.為了幫助提前完成該過程,構建數據清理圖非常困難。
d.對于任何正在進行的維護,數據清理過程既昂貴又費時。
https://www.toutiao.com/i6821025363057967624/