大數據分析中樣本的不準確,不但會帶來分析結果輸出的價值偏差,更會因輸出結果的錯誤,導致參考方的策略決策方向性錯誤,造成重大經濟損失。
我不知道為什么悟空問答里會有這么奇葩的問題;由于職業強迫癥沒辦法,在此解釋下大數據分析中,數據樣本的特點以及這些特點,對數據分析挖掘輸出的結果都有怎樣的影響;
一、數據樣本特點的認知誤差:
二、數據來源造成的數據不準確性:
邏輯盲點,物理盲點或人為盲點,如數據庫里缺失,或未收集到,或人為忽略商業目的存在關聯的數據;或將不同數據來源的數據進行混合使用;
三、造成數據分析結果對應商業目的的誤差;
我們做數據分析的商業目的無外乎三種:
通俗點講,就是通過對已有數據集合的匯總清洗,分析挖掘,把隱藏在看似雜亂無章的數據背后的信息集中提煉出來,總結研究這些對象的內在規律及邏輯關系,用于幫助我們在進行判斷及決策時,選擇適當的策略和行動計劃;
1)當我們在采集或清洗一手數據時,我們使用已經發生數據錯誤或數據類型片面不準確,通過上述一系列復雜的分析挖掘過程,輸出的結論就陷入“差之毫厘,謬以千里”狀態,不再具備可參考價值及操作性;
2)這樣的輸出成果,對我們的判斷及決策都無法起到參考支撐價值,更加無法指導我們去選擇正確的策略和行動計劃;
3)盲目按照由錯誤數據集合分析挖掘輸出的結果,參考制定市場策略及決策,并運行于行動計劃里,那么其后果不堪設想;
綜上,
一切分析結果的輸出,都取決于輸入數據的準確性,同時數據在采集,清洗,處理,分析,建模,挖掘,可視化呈現扥各個環節上,監控、保障數據誤差盡量趨近零,這樣輸出的結果才具備真實有效,在支持策略決策上具備參考性,在行動計劃具備可執行性;這才是數據分析結果的價值所在。
【墨蔸集】作者:
連續創業者,專注商業數據分析及團隊管理。定期輸出大數據商業運營管理實戰經驗。歡迎探討交流,謝謝關注。