數據的價值哪里來?來自更好的決策!
現在大家都在談大數據,數據分析,機器學習,但是這些都是手段,決策才是我們的目的,要想發揮數據的價值,先看看你身邊的工作中有哪些決策,再決定用什么樣的數據,怎樣用數據來改進他們,我們先看一個小例子:
有100人來找你借錢,每人借100塊,他們都愿意一年后還你115塊(因為跟隔壁老王家借,也要還這么多),現在問題來了,你借還是不借,借給誰?
既然賺的錢已經固定了,就是一年后最多賺1500塊,總收入:(115-100)*100=1500元,那對你的最重要的就是到底會有多少人不還錢,哪些人不還錢。
現在有個人說:我沒法告訴你誰不還錢,但是我可以告訴你目前總體上不還錢人的比例。這個數據有用嗎?
答案是:有用,因為你得到這個數據之后,可以根據這個數據做不同的決策:
如果這個比例高于15%,你可以不借錢出去,因為會有超過15個人不還錢,損失的錢多于1500元,不劃算;
如果這個比例低于15%,你可以借,還有賺頭;
現在這個人告訴你,應該10個人里會有1個人不還錢,比例如圖所示:
那到底應該借給誰?應該都借出去。因為都借出去你可以收1350元的利息,10個人不還錢,賠1000元,最后賺350,如果只借給其中50個人,算下來你只能賺175元,借的人越多,賺的越多,最多賺350。
接下來又有人過來和你說:老兄,我通過過往數據分析,開發了一個預測模型,可告訴你哪些人不還,而且絕對準確,可以賣給你,你想買嗎?
答案是:可以買,但是不能太貴。我們可以算一下,如果你賣了這個模型,而且知道了到底是哪10個人不還錢,如下圖所示:
那你就會只會借給其他90個人錢,而不借給那不還錢的10個人,你最后賺到的錢是(115-100)*90=1350元,比原來最多賺350元時,多出1000元,如果這個模型的價格沒有超過1000元,買來還是值得的。
但是現實沒有那么完美,這個世界上沒有完美的模型,但是不完美的模型也價值。
如果這個模型可以給出來他的判斷,但是它判定為壞人的里面只有7個是真正不還錢的,而另外它認為是好的里面還是有3個會不還錢,這樣的模型你會買嗎?如果買,出多少錢比較劃算?
那讓我再來算一算,這個模型的效果如圖所示:
根據這個模型,對于模型判斷為好的那90個人,我還是會借給他們錢,不過這里面會有三個會不還錢,最終賺的錢是(115-100)*90-3*100=1050元,比原來最多賺350元還是多了655元,如果這個模型的價格不超過655元還是值得的。
通過這個故事,我們可以總結幾個點:
數據可以降低決策中的不確定性,從而提高決策的效果,例子中,從最開始時,完全確定誰會不還錢,到最后,確切知道到底誰會不還錢,確定性越來越高,決策的效果也越來越好,數據的作用也就體現出來了。
數據的價值依賴于決策的問題,如果我有十萬元,可以借給1000人,那這個模型賣一千塊錢,那也值得買,數據的價值不是孤立。
不完美的數據也有價值,關鍵是如何量化這個價值,世界上沒有完美的數據模型,但是有一部分模型是有用的,只要他能讓你的決策變得更好,哪怕是小小的改進,對于一個足夠重要的問題,也可以產生巨大的價值。