欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

做數據分析如何保障數據的準確性?

劉姿婷2年前16瀏覽0評論

從業多年,在數據準確性上摔過不少跟斗,總結了一些切實有效的方法,能夠幫你盡可能的規避錯誤,確保數據的準確性,分享給大家

對數據上游的管理

雖然看上去,數據分析師是掌握數據資源的人,但從數據的生產流程來看,數據分析師其實位于數據的下游,數據需要至少先經過采集環節、清洗環節、存儲環節才能被數據分析師拿到,甚至有的體量特別大的數據,他的調取和處理環節也不能被數據分析師控制。所以,想要最終做出的數據不出錯,那就要先確保我們的數據上游是準確的。

雖然數據上游一般是由其他業務或技術人員負責,但數據分析師也可以通過提需求或生產過程參與的方式,對數據上游進行管理:

  • 采集環節,負責采集環節的業務或技術人員往往會把注意力聚焦在采集實現方式上,而忽略了采集來的數據本身對應的業務含義,數據分析師需要在這個環節上跟他們反復說明根據業務含義反推出來的采集細節,確保大家在理解和實際執行上沒有偏差,最好在設置一些采集質量的控制點,幫助業務或技術人員做好采集工作。例如,APP的數據采集經常需要前端技術同學進行打點采集,這時數據分析師應該和技術同學一起討論打點方案的各個細節,比如“啟動”這個點對應的業務含義是想計算每天的活躍用戶數量,那么啟動點的采集就應該既包含點擊APP圖標啟動又包含后臺呼啟,其中后臺呼啟與上一次退入后臺的時間間隔應該至少大于30秒,否則可能被認為是用戶的正常操作而非完成一次使用后的退出,30秒也是根據業務實際情況人為討論設定的。
  • 清洗環節,分析師應該在確認采集環節的細節后跟數倉工程師溝通數據清洗的規則,比如某個字段可能會含有某些方面的臟數據,需要通過何種規則被清洗掉。例如,打點采集上來的行為數據可能會因為用戶手機網絡環境問題或其他前端原因而導致上報的行為時間戳錯誤,那么清洗的時候就應該利用獲取到的數據上報時間戳去填充或直接去掉這條記錄。
  • 儲存環節,數據分析師應該根據具體業務的實際需求,向數倉工程師提出相關的結果表建表需求,和與之配套的調度需求,同時也可以利用上一節梳理過的數據分析指標體系參與到數倉結構規劃的討論中。例如,公司管理層需要每天關注的核心數據指標最好統一放在一張結果表里儲存(為了提升BI的計算效率),管理層每天要在早上10點看到,那么對應的數據分析師應該在早上8點看到(以便提前發現問題并留出修正時間),結合數據采集和數倉拉取時間那么保險起見應該在7點完成底層表調度。
  • 調取環節,我建議數據分析師能夠梳理出一個常用的數倉表文檔,便于平時日常的數據調取,而如果用到相對陌生的表則應該先與數倉工程師溝通確認表的字段含義、數據源頭等再進行調取使用。
  • 處理環節,遇到體量比較大的數據需要借助工程師進行處理時,應該先明確好數據處理的要求和步驟,最好落實成一個執行文檔再交給工程師讓他按此進行處理,處理結束后要對數據結果進行核驗。

設立數據“安檢站”

“大包小包過機安檢”只要你坐過北京的地鐵,相信這句話一定耳熟能詳,為了確保所有旅客不把易燃易爆等危險品帶入地鐵內危及他人安全,地鐵在每個進站口設置安檢站對所有過往人員物品進行檢查。雖然避免數據錯誤的最主要方法就是檢查,但全流程無休止的數據檢查顯然是費時費力且效率低的,我們其實也可以在數據流入流出的關鍵節點設立“安檢站”,只在這個時候進行數據檢查。

一般我會在這些地方設立“安檢站”:

  • 數據調取完成,如果原材料出錯,后面一切都錯,所以你需要把住數據流入的第一道關。
  • 數據處理完成,你需要利用數據處理后的結果進行分析判斷,如果處理結果出錯,你可能會因此錯失關鍵線索而在問題里打轉,會浪費遠比你檢查一下數據而多的多的時間。
  • 數據報告撰寫完成,這是數據流出前的最后一道關,當然要仔細檢查一遍,出了這個“安檢站”,數據錯誤就會暴露在外無法再挽回了。

幾種行之有效的檢查方法:

  • 直接核對,拿處理前和處理后的某條數據對比,雖然簡單粗暴,但對于一些關鍵數據的確認很有必要。
  • 勾稽關系驗證,利用數據與數據之間的邏輯或計算關系,來驗證數據的準確性。比如,A+B=C或者A>B>C。
  • 參照對比,跟歷史或同類數據對比,看看數據是否存在比較大幅的差異,如果出現差異又沒有對應的背景原因的話,那很有可能數據錯了。比如,平時的月新增用戶是30萬人,但最新一個月變成200萬,且這一個月并沒有追加大成本做推廣,那么很有可能是數據錯誤。
  • 穿行測試,偷師審計中經常使用的一個方法,審計上的穿行測試(walkthroughtesting)是指追蹤交易在財務報告信息系統中的處理過程,而我們這里的穿行測試是通過一個實例數據去檢查數據中的各個環節是否符合邏輯,比如用幾個少量的購買用戶ID去用戶活躍數據、用戶廣告瀏覽和點擊數據、用戶購買數據等中去找他們實際的數據記錄看看與邏輯是否吻合。這個方法一般用在數據調取完成后的檢查。
  • 業務事實判斷,一個很郁悶卻經常發生的事情——數據分析師檢查了幾輪都沒發現的錯誤,卻會被老板輕易發現。老板其實并不比分析師掌握更多的數據,他們只是對業務更熟悉,他們會根據業務的實際情況對具體數據有一個預判,比如某個商品昨天的銷量,數據分析師看到的只是個數字,而老板看到的卻是這個產品經歷了怎樣的設計和討論、前期做過多少次頭腦風暴或市場調查、與之匹配的推廣投入是多少、同類型競品大概能賣出多少等等,這些事實讓那個簡單的數字變得豐富,而數字但凡出現一點點錯誤都會與那些歷歷在目的實時場景不符。我們可以學習老板們的這一點,也找尋一些業務事實或者直接詢問業務人員業務情況來輔助我們對數據準確性做判斷。

確保數據準確的幾個日常習慣

除了上述成體系的錯誤規避手段外,幾個日常的好習慣也可以讓我們盡可能的離錯誤遠一點:

  • 養成數據監測習慣。每天要把重要的數據指標全部過一遍,最好能結合業務變化進行數據監測,這個過程可以通過寫每天的數據日報完成。很多重大的數據調度問題我都是靠數據監測發現的。
  • 先于其他人看到數據。每天盡量早點到辦公室,在其他同事尤其是老板還沒打開每天的BI報表之前,先看到數據,如果發現問題能夠及時糾正或至少能先行通報數據錯誤。
  • 別太相信自己的記憶。人腦不是電腦,一定有記不清記不準的情況,所以如果能有足夠的時間查詢一下數據,就別自己靠記憶去回答數據問題。
  • 盡量為自己爭取多一點時間。很多錯誤往往是我們準備時間不夠,慌亂中壓力大容易錯,又缺少必要的實際檢查,所以盡量為自己爭取多一點數據準備的時間是很有必要的。
  • 永遠帶著電腦。既然不能依靠人腦,那就只能依靠電腦,在任何可能會發生數據查詢的時間和空間內最好都帶著你的電腦。
  • 如果發現數據錯誤,一定要及時承認并在第一時間修正,如果想掩飾一個錯誤,那么就可能會引發更多的錯誤。

以上,是確保數據準確的大致經驗總結,幾句最關鍵的話再重復嘮叨一下:

  • 信任是數據分析師立足的根本,一點點的數據錯誤就可能將積累了幾年的信任迅速毀掉。
  • 永遠別忘記檢查,無論時間多緊迫,無論任務難度多小,無論數據提供給誰
  • 數據分析是個“勤”行,一定要盡可能深入業務和技術的各個層面,一定要跑在別人看數據的前面。