隨著互聯網科技的迅速發展,傳統的數據分析技術已無法滿足新時代以TB為單位的大量數據處理需求。由此衍生出了一系列針對不同類型的海量數據的處理技術,比如:有監督數據挖掘算法和無監督數據挖掘算法。那么針對看起來諱莫如深的大數據,我們應該怎樣學習呢?這里我想介紹下我的一些經驗:
一、要學“大數據”,先學“小數據”
很多同學在學習大數據的時候,有一個誤區,那就是一上來就鉆研各種高深的數據挖掘算法。其實對于零基礎的人來講,這些算法單單是其原理就已能夠令人望而卻步,更遑論其算法實現。所以我們不妨放下“身段”,先從基本的統計學,多元統計分析等基礎的數據分析開始。這里推薦兩本書:
1、《統計學》中國人民大學出版社
2、《多元統計分析》中國人民大學出版社
以上兩本書需要熟練掌握因為書中所介紹的可以說是數據分析中最基礎也是最重要的概念,尤其是多元統計中的回歸算法,此算法可以說是數據挖掘中邏輯回歸以及時間序列的基礎。建議把書中的課后題也都做了,加深對相關概念的理解。
二、學習數據挖掘的基本概念
這里也給推薦幾本書:
1、《數據挖掘導論》人民郵電出版社
2、《數據挖掘概念與技術》機械工業出版社
這兩本書可以說是對數據挖掘理論技術的全看介紹,《數據挖掘導論》偏重于原理介紹,《數據挖掘概念與技術》則偏重于技術實現方法介紹。如果能把這兩本書學會學透我相信對大數據分析而言,理論方面已經可以說是準備的非常充分了。
三、紙上得來終覺淺,絕知此事要躬行
理論知識掌握的再好也不過是紙上談兵,我們的目標是要落實到一個一個的項目上來。
這里也給推薦幾本書,書的內容是對時下比較流行的數據挖掘軟件的介紹。
1、《SPSSModeler+Weka數據挖掘從入門到實戰》電子工業出版社
2、《數據處理的SPSS和SASEG實現》電子工業出版社
以上兩本書主要介紹了時下最流行的個人數據挖掘工具SPSS和企業級數據挖掘工具SASEG。內附多種案例供讀者練手,是非常適合數據挖掘新手的實操指導書。
總結
大數據技術除了上面介紹過的數據挖掘之外,也包含技術環境的搭建,挖掘工具的使用及個性化開發等很多方面,這是一個范圍很廣的概念,作為新興領域總有很多機遇等待我們去把握,同時也需要我們付出更多的努力來把握機遇。希望我的答復能對你有所幫助。