國內(nèi),根據(jù)數(shù)聯(lián)尋英發(fā)布《大數(shù)據(jù)人才報告》,目前全國的大數(shù)據(jù)人才僅46萬,3-5年內(nèi)大數(shù)據(jù)人才的缺口將高達150萬。
機器學(xué)習(xí)職位薪水范圍:12k--30K,最大值30k+若干股票,最小值12k+若干期權(quán);
數(shù)據(jù)挖掘薪水范圍:12k--30K,最大值30k+若干股票,最小值12k。
想做數(shù)據(jù)處理尤其是大數(shù)據(jù)量處理的相關(guān)工作必須兼具計算機科學(xué)基礎(chǔ)和統(tǒng)計基礎(chǔ)。
現(xiàn)在有一個高大上的職業(yè)叫數(shù)據(jù)科學(xué)家,
有人說數(shù)據(jù)科學(xué)家就是一個比程序員更懂統(tǒng)計的統(tǒng)計學(xué)家,一個比統(tǒng)計學(xué)家更會編程的程序員。
數(shù)學(xué)
有很多知識還需要作為基礎(chǔ)來學(xué)習(xí)和鞏固。是學(xué)習(xí)和鞏固,不是必須會,是要知道了解,用的時候知道去哪里翻書找資料
比如,
基礎(chǔ)知識:線性代數(shù),概率論
核心知識:數(shù)理統(tǒng)計、預(yù)測模型、機器學(xué)習(xí)、時間序列分析、應(yīng)用回歸、多元統(tǒng)計分析
計算機
數(shù)學(xué)軟件:強大矩陣運算和優(yōu)化功能的matlab,專而精的mathematica。
語言:
python(很流行的科學(xué)語言,潛力也很大,ipython這樣交互式環(huán)境十分有利)
fortran(強大的計算語言,充分優(yōu)化的現(xiàn)成代碼)
R(相比于matlab,java,c,R是個高富帥)
這是數(shù)據(jù)分析各類語言使用度的圖表,R占的比例相當(dāng)高。想利用現(xiàn)在動輒TB級的數(shù)據(jù)大顯身手,光靠excel可不夠啊。你真的需要寫很多代碼…
實踐
1.自己裝個小集群跑hadoop/hive,可以到cloudera網(wǎng)站上下現(xiàn)成的打包虛擬機。看看hadoopinaction.這本書比權(quán)威指南容易懂很多。
2.裝個cassandra什么的玩玩,在上面架個小項目,比如留言板什么的。。。
3.讀一些著名的paper,nosql的或者mapreduce。
4.看看apachehadoop家族的其他幾個項目,比如zookeeper,pig,了解一下生態(tài)圈
找個開源項目,看看ticketlist,看看能不能自己修。。。