首先,大數(shù)據(jù)的基礎(chǔ)有三大部分內(nèi)容,分別是數(shù)學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī),所以要想從事大數(shù)據(jù)領(lǐng)域的研發(fā)工作需要一個(gè)系統(tǒng)的學(xué)習(xí)過(guò)程。
在大數(shù)據(jù)的技術(shù)體系結(jié)構(gòu)中,編程語(yǔ)言是一個(gè)重要的組成部分,目前在大數(shù)據(jù)領(lǐng)域使用比較普遍的編程語(yǔ)言包括Java、Python、R、Scala等,通常從事不同的崗位需要掌握不同的編程語(yǔ)言(與技術(shù)團(tuán)隊(duì)有密切關(guān)系),所以學(xué)習(xí)大數(shù)據(jù)一定要具備編程語(yǔ)言基礎(chǔ),但是并不是說(shuō)一定要具備Java基礎(chǔ)。從事數(shù)據(jù)分析通常更多的選擇是采用Python語(yǔ)言,無(wú)論是通過(guò)統(tǒng)計(jì)學(xué)方式還是機(jī)器學(xué)習(xí)方式,而R語(yǔ)言在數(shù)據(jù)過(guò)濾和推薦系統(tǒng)等大數(shù)據(jù)應(yīng)用領(lǐng)域也有廣泛的應(yīng)用。
雖然學(xué)習(xí)大數(shù)據(jù)并不一定要掌握J(rèn)ava語(yǔ)言,但是掌握J(rèn)ava語(yǔ)言對(duì)于學(xué)習(xí)大數(shù)據(jù)技術(shù)還是有積極意義的,一方面原因是Hadoop平臺(tái)本身就是采用Java語(yǔ)言開(kāi)發(fā)的,另一方面原因是Java語(yǔ)言具有健全的生態(tài)體系,在開(kāi)發(fā)大數(shù)據(jù)落地應(yīng)用方面具有一定的優(yōu)勢(shì),而且Java語(yǔ)言性能穩(wěn)定且擴(kuò)展性比較強(qiáng),采用Java語(yǔ)言的開(kāi)發(fā)風(fēng)險(xiǎn)是比較小的。
學(xué)習(xí)Java語(yǔ)言可以分成三個(gè)階段來(lái)學(xué)習(xí),第一個(gè)階段是學(xué)習(xí)Java的基本語(yǔ)法,重點(diǎn)在于對(duì)抽象的理解,包括封裝、繼承、多態(tài)等概念;第二個(gè)階段是學(xué)習(xí)Java的分布式開(kāi)發(fā),重點(diǎn)在于如何通過(guò)Java來(lái)整合資源,包括數(shù)據(jù)庫(kù)等;第三個(gè)階段是學(xué)習(xí)Java的Web開(kāi)發(fā),重點(diǎn)在于理解Web開(kāi)發(fā)體系結(jié)構(gòu)以及服務(wù)組件的開(kāi)發(fā)。
在學(xué)習(xí)Hadoop開(kāi)發(fā)的過(guò)程中需要掌握Hadoop平臺(tái)提供的API,通過(guò)大量的實(shí)驗(yàn)逐漸掌握如何通過(guò)Java在Hadoop平臺(tái)下進(jìn)行功能開(kāi)發(fā)。