無論何時,抽樣調查法,始終會作為數據分析挖掘工作中的重要分析方法客觀存在。大數據時代更是如此。
“統計學無用論”及“大數據即全量數據”都是有悖于實現數據分析挖掘目的,及價值呈現的狹隘認知和錯誤觀點。
抽樣調查法:指從總量樣本中,隨機地抽取一定數量的個體進行調查,從而推演出樣本總量的共性特征。 特點是:每個樣本抽中的概率相等,樣本完全獨立,彼此間無一定的關聯性和排斥性。 注意:這里的總量,指的是采集到的樣本總量,而非全量樣本;
下面從
一、大數據基本特征是量級大,類型多;但大數據≠全量數據集合;
當下,隨著科技技術及工具的發展使用,數據采集匯總的成本及難度越來越低,數據集合的量級、類型不斷擴大,甚至在相對狀態下,逐漸趨向全量數據集合;但由于數據的時效性,決定了數據分析中的樣本,永遠不可能是全量數據集合。
用于分析挖掘的數據集合,其必須首先滿足兩個基本條件:數據的真實性和適用性;脫離了這兩個基本特點的數據,不具備分析挖掘的必要性,其輸出的結果沒有價值,更不具備決策或行動計劃參考性;這些數據一定是樣本數據,而非全量數據;
二、數據分析過程中,所使用的數據集合均為樣本,而非全量;
現實中數據,總是隨著時間,空間的變化,在數量上動態增減,不管數據量多大,我們所能采集獲取到的,都只是一個時空區間的樣本數據,而并非全量。
三、數據分析挖掘目的,決定了數據的樣本集合特點是抽樣,而非全量;
不現實,是吧。。。
這工作量,時間、人工成本,是不是難度很大?
能用抽樣調查完成的相同結果的輸出,憑啥還要消耗多余的資源呢?太浪費啦!
如果這里一定要用全量數據進行分析預測的話,那么未來的數據你如何獲取?你是超人?閃電俠?還是時空旅行者?能穿越嗎?
這就是個根本問題,更能說明大數據時代,分析挖掘的數據集合,一定絕壁是樣本數據了。
綜上簡述,我們處在一個動態的時空里,任何事物都不會是絕對全量存在,你我也就百十來年的人生歷程,也都只是歷史長河中的微小一段的經歷而已。
還認為大數據時代的數據集合,就是全量數據集合的觀念,那么對數據認知及數據統計分析挖掘過程和價值目的輸出等方面的理解,就太片面或者根本就是錯誤的。該掃掃“數盲”了。
【墨蔸數據】作者:
連續創業者,專注商業數據分析及項目團隊管理。定期輸出大數據商業運營管理實戰經驗。歡迎持續關注,一起探討交流,謝謝!