如何從概念上分清數(shù)據(jù)挖掘與數(shù)據(jù)分析?
通俗點(diǎn)說,數(shù)據(jù)分析是本科生,通過簡(jiǎn)單的統(tǒng)計(jì)來觀察小數(shù)據(jù),解決相對(duì)簡(jiǎn)單問題,比如用戶年齡分布分析;而數(shù)據(jù)挖掘是研究生,通過機(jī)器學(xué)習(xí)算法建模,要深挖大數(shù)據(jù)背后的模式,來解決復(fù)雜問題,比如個(gè)性化推薦。
方法論方面:一個(gè)是統(tǒng)計(jì),一個(gè)是機(jī)器學(xué)習(xí)數(shù)據(jù)分析作用的多數(shù)是概率統(tǒng)計(jì)理工具,比如留存率的分析,大多數(shù)上是對(duì)歷史數(shù)據(jù)的某個(gè)維度的展示。而數(shù)據(jù)挖掘,背后的目標(biāo)隱藏在大數(shù)據(jù)中,需要通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)理論去預(yù)測(cè),比如挖掘用戶的喜好,本質(zhì)上是對(duì)用戶未來行為的預(yù)測(cè)。
工具層面:一個(gè)是excel,一個(gè)是代碼數(shù)據(jù)分析,通過excel可以基本搞定,excel內(nèi)置很多統(tǒng)計(jì)函數(shù),頂多做個(gè)簡(jiǎn)單的線性回歸分析。而數(shù)據(jù)挖掘,將要利用大數(shù)據(jù)、機(jī)器學(xué)習(xí)等用更專業(yè)的編程語(yǔ)言來實(shí)現(xiàn),比如python調(diào)用sklearn或xgboost,來實(shí)現(xiàn)。
數(shù)據(jù)層面:一個(gè)是小數(shù)據(jù),一個(gè)是大數(shù)據(jù)數(shù)據(jù)分析數(shù)據(jù)量上相對(duì)小,或者很多數(shù)據(jù)都進(jìn)行了聚合。比如通過分析某商品的近幾年的銷量來看市場(chǎng)趨勢(shì)。而數(shù)據(jù)挖掘,背后對(duì)應(yīng)的大部分為海量數(shù)據(jù),比如通過用戶行為日志,來對(duì)用戶做千人千面的個(gè)性化推薦。
實(shí)際項(xiàng)目中,以實(shí)際需求驅(qū)動(dòng),根據(jù)實(shí)際情況選不同的方法。