欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

學(xué)習(xí)大數(shù)據(jù)都需要掌握什么技術(shù)

傅智翔2年前13瀏覽0評論

學(xué)習(xí)大數(shù)據(jù)都需要掌握什么技術(shù)?

我們都知道現(xiàn)在學(xué)習(xí)大數(shù)據(jù),Hadoop是其中一個必學(xué)的技術(shù),簡單來說,Hadoop是在分布式服務(wù)器集群上存儲海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的一種方法。那Hadoop該學(xué)習(xí)哪些內(nèi)容?需要了解什么呢?有Hadoop經(jīng)典學(xué)習(xí)資料嗎?

HDFS

HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng)),它是一個高度容錯性的系統(tǒng),適合部署在廉價的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。

MapReduce

通俗說MapReduce是一套從海量源數(shù)據(jù)提取分析元素末后返回結(jié)果集的編程模型,將文件分布式存儲到硬盤是第一步,而從海量數(shù)據(jù)中提取分析我們需要的內(nèi)容就是MapReduce做的事了。

MapReduce的基本原理就是:將大的數(shù)據(jù)分析分成小塊逐個分析,然后再將提取出來的數(shù)據(jù)匯總分析,從而獲得我們想要的內(nèi)容。當(dāng)然怎么分塊分析,怎么做Reduce操作非常復(fù)雜,Hadoop已經(jīng)提供了數(shù)據(jù)分析的實(shí)現(xiàn),我們只需要編寫簡單的需求命令即可達(dá)成我們想要的數(shù)據(jù)。

關(guān)于Hadoop的使用方式:

感覺現(xiàn)在各個公司使用Hadoop的方式都不一樣,主要我覺得有兩種吧。

第一種是long running cluster形式,比如Yahoo,不要小看這個好像已經(jīng)沒什么存在感的公司,Yahoo可是Hadoop的元老之一。這種就是建立一個Data Center,然后有幾個上千Node的Hadoop Cluster一直在運(yùn)行。比較早期進(jìn)入Big Data領(lǐng)域的公司一般都在使用或者使用過這種方式。

另一種是只使用MapReduce類型。畢竟現(xiàn)在是Cloud時代,比如AWS的Elastic MapReduce。這種是把數(shù)據(jù)存在別的更便宜的地方,比如s3,自己的data center, sql database等等,需要分析數(shù)據(jù)的時候開啟一個Hadoop Cluster,Hive/Pig/Spark/Presto/Java分析完了就關(guān)掉。不用自己做Admin的工作,方便簡潔。

所以個人如果要學(xué)Hadoop的話我也建議第二種,AWS有免費(fèi)試用時間(但是EMR并不免費(fèi),所以不要建了幾千個Node一個月后發(fā)現(xiàn)破產(chǎn)了),可以在這上面學(xué)習(xí)。更重要的是你可以嘗試各種不同的配置對于任務(wù)的影響,比如不同的版本,不同的container size,memory大小等等,這對于學(xué)習(xí)Spark非常有幫助。

總的來說Hadoop適合應(yīng)用于大數(shù)據(jù)存儲和大數(shù)據(jù)分析的應(yīng)用,適合于服務(wù)器幾千臺到幾萬臺的集群運(yùn)行,支持PB級的存儲容量。Hadoop典型應(yīng)用有:搜索、日志處理、推薦系統(tǒng)、數(shù)據(jù)分析、視頻圖像分析、數(shù)據(jù)保存等。

大數(shù)據(jù)產(chǎn)業(yè)已進(jìn)入發(fā)展的“快車道”,急需大量優(yōu)秀的大數(shù)據(jù)人才作為后盾。能夠在大數(shù)據(jù)行業(yè)崛起的初期進(jìn)入到這個行業(yè)當(dāng)中來,才有機(jī)會成為時代的弄潮兒。千鋒大數(shù)據(jù)開發(fā)新進(jìn)企業(yè)級服務(wù)器實(shí)戰(zhàn)教學(xué),20周帶你一站式搞定匪夷所思的大數(shù)據(jù)開發(fā)技術(shù)。