我自己在電信行業和互聯網行業做了10多年的數據挖掘相關工作。簡單談一下自己的看法:
對這個問題給出一個直接的答案:
之所以這樣說,這個數據挖掘要解決問題相關。數據分析一般傾向于幫助業務基于數據理解業務的過去和現在,數據挖掘傾向于幫助業務預測未來。當然在業務看來深入的數據分析也可以稱為“數據挖掘”。我們還是采用"數據挖掘傾向于幫助業務預測未來"的說法。這個說法相對而言共識會更多一些。數據挖掘通常會涉及到6個步驟:
1.業務理解及問題定義
2.數據理解
3.數據整理(需要從數據庫或者數據倉庫中提取數據,一般需要用到SQL)
4.建立模型(一般需要根據各種問題適應的場景應用各種算法來建立模型,這個通常需要用到相關的數據挖掘軟件,比如需要用到懂編程的Pyhon、R。當然也可以用不需要編程的Clenmentine或者SASEM)
5.模型評估(這個也需要用到數據挖掘軟件)
6.模型上線部署(這個最好需要用到可編程的軟件,以便讓模型能按照規定的時間自動運行生成結果)
其實看完這個流程,大家會發現,如果只是給老板講講PPT,說說自己做的數據挖掘模型效果不錯。不考慮自動運行提升效率。不會編程(SQL不屬于編程范疇)也可以。但要保證模型在線上自動運行,保證整個過程的自動化和效率。學好編程(比如Python或者R)還是必須的