我公司需要采集網(wǎng)頁和桌面軟件的數(shù)據(jù)?
在這個由物聯(lián)網(wǎng)(IoT),社交媒體,邊緣計算以及越來越多的計算能力(如量子計算)支持的數(shù)字時代,數(shù)據(jù)可能是任何企業(yè)最有價值的資產(chǎn)之一。正確(或不正確)的數(shù)據(jù)管理將對企業(yè)的成功產(chǎn)生巨大影響。換句話說,它可以成敗一個企業(yè)。
這就是原因,為了利用這些巨大的數(shù)據(jù),無論大小,企業(yè)都在使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),以便他們可以建立有用的客戶群,增加銷售量并提高品牌忠誠度。
但是在大多數(shù)情況下,由于具有許多收集源和各種格式(結(jié)構(gòu)化和非結(jié)構(gòu)化),數(shù)據(jù)可能是不準(zhǔn)確,不一致和冗余的。
通過向機(jī)器學(xué)習(xí)算法提供具有此類異常的數(shù)據(jù),我們是否可以及時,全面地訪問相關(guān)信息?
不,當(dāng)然不!首先需要清除此類數(shù)據(jù)。
這就是數(shù)據(jù)清理的地方!
數(shù)據(jù)清理是建立有效的機(jī)器學(xué)習(xí)模型的第一步,也是最重要的一步。至關(guān)重要!
簡而言之,如果尚未清理和預(yù)處理數(shù)據(jù),則機(jī)器學(xué)習(xí)模型將無法正常工作。
盡管我們經(jīng)常認(rèn)為數(shù)據(jù)科學(xué)家將大部分時間都花在修補(bǔ)ML算法和模型上,但實際情況有所不同。大多數(shù)數(shù)據(jù)科學(xué)家花費大約80%的時間來清理數(shù)據(jù)。
為什么?由于ML中的一個簡單事實,
換句話說,如果您具有正確清理的數(shù)據(jù)集,則簡單的算法甚至可以從數(shù)據(jù)中獲得令人印象深刻的見解。
我們將在本文中涉及與數(shù)據(jù)清理相關(guān)的一些重要問題:
a.什么是數(shù)據(jù)清理?
b.為什么需要它?
c.數(shù)據(jù)清理有哪些常見步驟?
d.與數(shù)據(jù)清理相關(guān)的挑戰(zhàn)是什么?
e.哪些公司提供數(shù)據(jù)清理服務(wù)?
讓我們一起開始旅程,了解數(shù)據(jù)清理!
數(shù)據(jù)清洗到底是什么?
數(shù)據(jù)清理,也稱為數(shù)據(jù)清理,用于檢測和糾正(或刪除)記錄集,表或數(shù)據(jù)庫中的不準(zhǔn)確或損壞的記錄。廣義上講,數(shù)據(jù)清除或清除是指識別不正確,不完整,不相關(guān),不準(zhǔn)確或其他有問題(“臟”)的數(shù)據(jù)部分,然后替換,修改或刪除該臟數(shù)據(jù)。
通過有效的數(shù)據(jù)清理,所有數(shù)據(jù)集都應(yīng)該沒有任何在分析期間可能出現(xiàn)問題的錯誤。
為什么需要數(shù)據(jù)清理?
通常認(rèn)為數(shù)據(jù)清理是無聊的部分。但這是一個有價值的過程,可以幫助企業(yè)節(jié)省時間并提高效率。
這有點像準(zhǔn)備長假。我們可能不喜歡準(zhǔn)備部分,但我們可以提前收緊細(xì)節(jié),以免遭受這一噩夢的困擾。
我們只需要這樣做,否則我們就無法開始玩樂。就這么簡單!
讓我們來看一些由于“臟”數(shù)據(jù)而可能在各個領(lǐng)域出現(xiàn)的問題的示例:
a.假設(shè)廣告系列使用的是低質(zhì)量的數(shù)據(jù)并以不相關(guān)的報價吸引用戶,則該公司不僅會降低客戶滿意度,而且會錯失大量銷售機(jī)會。
b.如果銷售代表由于沒有準(zhǔn)確的數(shù)據(jù)而未能聯(lián)系潛在客戶,則可以了解對銷售的影響。
c.任何規(guī)模大小的在線企業(yè)都可能因不符合其客戶的數(shù)據(jù)隱私規(guī)定而受到政府的嚴(yán)厲處罰。例如,F(xiàn)acebook因劍橋數(shù)據(jù)分析違規(guī)向聯(lián)邦貿(mào)易委員會支付了50億美元的罰款。
d.向生產(chǎn)機(jī)器提供低質(zhì)量的操作數(shù)據(jù)可能會給制造公司帶來重大問題。
數(shù)據(jù)清理涉及哪些常見步驟?
每個人都進(jìn)行數(shù)據(jù)清理,但沒人真正談?wù)撍?。?dāng)然,這不是機(jī)器學(xué)習(xí)的“最奇妙”部分,是的,沒有任何隱藏的技巧和秘密可以發(fā)現(xiàn)。
盡管不同類型的數(shù)據(jù)將需要不同類型的清除,但是我們在此處列出的常見步驟始終可以作為一個良好的起點。
因此,讓我們清理數(shù)據(jù)中的混亂!
刪除不必要的觀察
數(shù)據(jù)清理的第一步是從我們的數(shù)據(jù)集中刪除不需要的觀測值。不需要的觀察包括重復(fù)或不相關(guān)的觀察。
a.在數(shù)據(jù)收集過程中,最常見的是重復(fù)或多余的觀察結(jié)果。例如,當(dāng)我們組合多個地方的數(shù)據(jù)集或從客戶端接收數(shù)據(jù)時,就會發(fā)生這種情況。隨著數(shù)據(jù)的重復(fù),這種觀察會在很大程度上改變效率,并且可能會增加正確或不正確的一面,從而產(chǎn)生不忠實的結(jié)果。
b.不相關(guān)的觀察結(jié)果實際上與我們要解決的特定問題不符。例如,在手寫數(shù)字識別領(lǐng)域,掃描錯誤(例如污跡或非數(shù)字字符)是無關(guān)緊要的觀察結(jié)果。這樣的觀察結(jié)果是任何沒有用的數(shù)據(jù),可以直接刪除。
修復(fù)結(jié)構(gòu)錯誤
數(shù)據(jù)清理的下一步是修復(fù)數(shù)據(jù)集中的結(jié)構(gòu)錯誤。
結(jié)構(gòu)錯誤是指在測量,數(shù)據(jù)傳輸或其他類似情況下出現(xiàn)的那些錯誤。這些錯誤通常包括:
a.功能名稱中的印刷錯誤(typos),
b.具有不同名稱的相同屬性,
c.貼錯標(biāo)簽的類,即應(yīng)該完全相同的單獨的類,
d.大小寫不一致。
例如,模型應(yīng)將錯字和大小寫不一致(例如“印度”和“印度”)視為同一個類別,而不是兩個不同的類別。與標(biāo)簽錯誤的類有關(guān)的一個示例是“不適用”和“不適用”。如果它們顯示為兩個單獨的類,則應(yīng)將它們組合在一起。
這些結(jié)構(gòu)錯誤使我們的模型效率低下,并給出質(zhì)量較差的結(jié)果。
過濾不需要的離群值
數(shù)據(jù)清理的下一步是從數(shù)據(jù)集中過濾掉不需要的離群值。數(shù)據(jù)集包含離訓(xùn)練數(shù)據(jù)其余部分相距甚遠(yuǎn)的異常值。這樣的異常值會給某些類型的ML模型帶來更多問題。例如,線性回歸ML模型的穩(wěn)定性不如Random Forest ML模型強(qiáng)。
但是,離群值在被證明有罪之前是無辜的,因此,我們應(yīng)該有一個合理的理由刪除一個離群值。有時,消除異常值可以提高模型性能,有時卻不能。
我們還可以使用離群值檢測估計器,這些估計器總是嘗試擬合訓(xùn)練數(shù)據(jù)最集中的區(qū)域,而忽略異常觀察值。
處理丟失的數(shù)據(jù)
機(jī)器學(xué)習(xí)中看似棘手的問題之一是“缺少數(shù)據(jù)”。為了清楚起見,您不能簡單地忽略數(shù)據(jù)集中的缺失值。出于非常實際的原因,您必須以某種方式處理丟失的數(shù)據(jù),因為大多數(shù)應(yīng)用的ML算法都不接受帶有丟失值的數(shù)據(jù)集。
讓我們看一下兩種最常用的處理丟失數(shù)據(jù)的方法。
a.刪除具有缺失值的觀察值:
這是次優(yōu)方式,因為當(dāng)我們丟棄觀察值時,也會丟棄信息。原因是,缺失的值可能會提供參考,在現(xiàn)實世界中,即使某些功能缺失,我們也經(jīng)常需要對新數(shù)據(jù)進(jìn)行預(yù)測。
b.根據(jù)過去或其他觀察結(jié)果估算缺失值:
這也是次優(yōu)的方法,因為無論我們的估算方法多么復(fù)雜,原始值都會丟失,這總是會導(dǎo)致信息丟失。大數(shù)據(jù)分析機(jī)器學(xué)習(xí)AI入門指南https://www.aaa-cg.com.cn/data/2273.html由于缺少值可能會提供信息,因此應(yīng)該告訴我們的算法是否缺少值。而且,如果我們推算我們的價值觀,我們只是在加強(qiáng)其他功能已經(jīng)提供的模式。
簡而言之,關(guān)鍵是告訴我們的算法最初是否缺少值。
那么我們該怎么做呢?
a.要處理分類特征的缺失數(shù)據(jù),只需將其標(biāo)記為“缺失”即可。通過這樣做,我們實質(zhì)上是添加了新的功能類別。
b.要處理丟失的數(shù)字?jǐn)?shù)據(jù),請標(biāo)記并填充值。通過這樣做,我們實質(zhì)上允許算法估計缺失的最佳常數(shù),而不僅僅是用均值填充。
與數(shù)據(jù)清理相關(guān)的主要挑戰(zhàn)是什么?
盡管數(shù)據(jù)清理對于任何組織的持續(xù)成功都是必不可少的,但它也面臨著自己的挑戰(zhàn)。一些主要挑戰(zhàn)包括:
a.對引起異常的原因了解有限。
b.錯誤地刪除數(shù)據(jù)會導(dǎo)致數(shù)據(jù)不完整,無法準(zhǔn)確地“填寫”。
c.為了幫助提前完成該過程,構(gòu)建數(shù)據(jù)清理圖非常困難。
d.對于任何正在進(jìn)行的維護(hù),數(shù)據(jù)清理過程既昂貴又費時。
https://www.toutiao.com/i6821025363057967624/