java開發(fā)師想要學(xué)習(xí)大數(shù)據(jù)?
不知道你對java掌握的程度是什么樣子的,如果java掌握的差不多的我還是建議你自學(xué)為好,如果你以前用的是java,我建議你以后從事大數(shù)據(jù)的還是從java入手,畢竟java你已經(jīng)能夠靈活的應(yīng)用他了,為什么我不建議去培訓(xùn)班學(xué)呢?
經(jīng)歷過培訓(xùn)的后來就業(yè)的人應(yīng)該都知道培訓(xùn)只是領(lǐng)你入門的,成長最快的話還是在工作中,找一兩個(gè)玩的好的小伙伴或者找同事你們一塊學(xué),因?yàn)楝F(xiàn)在的大多數(shù)互聯(lián)網(wǎng)公司的話都會用到大數(shù)據(jù)分析和數(shù)據(jù)倉儲,所以工作的時(shí)候都用的到。如果專門去掏錢培訓(xùn)的話還是不建議,掏錢培訓(xùn)的話如果脫產(chǎn)培訓(xùn)全日制的那種的話我感覺很浪費(fèi)時(shí)間的,如果周六日的話基本上學(xué)不扎實(shí),而且培訓(xùn)機(jī)構(gòu)交的東西都是特別淺的東西。根本接觸不到實(shí)戰(zhàn)性的東西。
我大概解釋一下大數(shù)據(jù)和應(yīng)用到的技術(shù)點(diǎn)來告訴你讓你知道大數(shù)據(jù)都要學(xué)那些東西,大數(shù)據(jù)顧名思義至少應(yīng)該是數(shù)據(jù)多,然后是數(shù)據(jù)多然后用來干嘛呢?肯定想從龐大的數(shù)據(jù)中抽出有用的數(shù)據(jù)來想辦法變現(xiàn)唄。所以數(shù)據(jù)分析,數(shù)據(jù)清洗,數(shù)據(jù)倉儲等就是大數(shù)據(jù)工程師要做的工作了。我推薦集中數(shù)據(jù)分析,數(shù)據(jù)清洗,數(shù)據(jù)倉儲用到的常用的技術(shù)框架,首先我要隆重的給你介紹兩個(gè)大數(shù)據(jù)平臺和引擎,然后后面為你介紹一些大數(shù)據(jù)常用的技術(shù)框架:
1.Hadoop框架
提到大數(shù)據(jù)好多人肯定首先想到的是Hadoop,Hadoop是一個(gè)開源的分布式系統(tǒng)平臺,Hadoop最核心的設(shè)計(jì)就是HDFS和MapReduce,HDFS為海量的數(shù)據(jù)提供了存儲,MapReduce為海量的數(shù)據(jù)提供了計(jì)算支持。此外Hadoop依賴于社區(qū)服務(wù),所以它的成本比較低,任何人都可以使用它。Hadoop主要有以下幾個(gè)優(yōu)點(diǎn),他分別是:高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性、低成本。Hadoop帶有用java編寫的框架,因此運(yùn)行在linux下十分理想的生產(chǎn)環(huán)境。當(dāng)然Hadoop也可以用在c++上進(jìn)行開發(fā)。
2.Spark
Spark是專門為大規(guī)模進(jìn)行數(shù)據(jù)處理的快速通用的計(jì)算引擎,Spark是類似于Hadoop MapReduce通用型快速并行計(jì)算框架。Spark是在Scala語言下實(shí)現(xiàn)的。他的性能特點(diǎn)有:更快的速度、易用性、通用性。
3.Storm
Storm是一個(gè)分布式實(shí)時(shí)計(jì)算系統(tǒng),他提供了毫秒級的數(shù)據(jù)處理,來一條數(shù)據(jù)處理一條數(shù)據(jù),他比Spark更加的實(shí)時(shí),Spark是秒級的而Storm是毫秒級的。Storm設(shè)計(jì)用于在容錯(cuò)和水平可擴(kuò)展方法中處理大量數(shù)據(jù)。它是一個(gè)流數(shù)據(jù)框架,具有最高的攝取率。他的應(yīng)用很廣泛。淘寶網(wǎng)使用Storm進(jìn)行實(shí)時(shí)的日志統(tǒng)計(jì),從日志中抽取有用的信息。百度使用Storm來處理搜索日志,提供了用戶的pv,ar-time等的實(shí)時(shí)統(tǒng)計(jì)。支付寶是中國最牛的第三方支付平臺,Storm在支付寶實(shí)時(shí)計(jì)算交易的數(shù)量,交易成交額,TOP N的交易賣家的信息,注冊用戶數(shù)量。每天處理的消息超過了1億。
4.HBase
HBase是一個(gè)hadoop下的開源的分布式的數(shù)據(jù)庫,他是一個(gè)高可靠性,高性能的,面向列、可伸縮的分布式存儲系統(tǒng),HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個(gè)不同的是HBase基于列的而不是基于行的模式。
5.Redis
Redis是一個(gè)開源的使用ANSI C編寫的支持網(wǎng)絡(luò),基于內(nèi)存也可以持久化的Key-Value數(shù)據(jù)庫,并提供多種語言的API,和一般的內(nèi)存數(shù)據(jù)庫相似,他提供相對更多的數(shù)據(jù)結(jié)構(gòu),它提供的數(shù)據(jù)結(jié)構(gòu)有string、list、set、zset、hash類型,這些數(shù)據(jù)類型都支持push/pop、add/remove及取交集并集和差集及更豐富的操作,而且這些操作都是原子性的。提供強(qiáng)大的便捷的工具集。方便計(jì)算像熱點(diǎn)數(shù)據(jù),排行榜,計(jì)數(shù)器,隊(duì)列等等。
這些技術(shù)只要你可研究都能學(xué)得會,可以在公司的測試庫中進(jìn)行測試學(xué)習(xí)等等,我們公司就提供了這樣供開發(fā)者學(xué)習(xí)的服務(wù)器環(huán)境,從搭建Hadoop偽分布模式進(jìn)行入門學(xué)習(xí),只要肯練習(xí)相信總有一天可以學(xué)會。