我也是零基礎學習大數(shù)據(jù)吧,只要你對它感興趣,還可以吃苦耐勞,一定可以學的會,加油吧,我當時找工作時,找了好久,因為這個行業(yè)要求學歷高,不要碩士就是研究生,揮著985高校,211高校的,一本以上。不過你有工作經(jīng)驗了肯定就好找啦。我大概給你說一下我的學習經(jīng)歷吧。
我剛開始學習接觸編程時,是接觸的C語言,然后是C++,后來就是Java。當我第一次接觸Java時,就深深地愛上了它,因為它簡單,易懂。之后接觸JavaWeb,開始學些開發(fā)后端的技術。那時大數(shù)據(jù)也比較火熱,再加上自己本身就是數(shù)學出生,大數(shù)據(jù)對我來說就是一個很好的選擇啦。
慢慢地我就開始接觸大數(shù)據(jù),從JavaSE學起,接著學習Linux系統(tǒng),其中Linux中有CentOS和ubuntu,這兩者個人覺得都好用。接著學習地就是Hadoop,它包括兩大塊HDFS(分布式文件系統(tǒng))和MapReduce(并行計算框架),雖說MapReduce現(xiàn)在
用的少了,但是學習它之后,對你以后學習更好的并行計算框架來說有很多的好處。接著就可以學習數(shù)據(jù)倉庫Hive,Hive的底層實現(xiàn)其實就是MapReduce,它使用的SQL語言叫做HQL,之前學過MySQL數(shù)據(jù)庫的話,很容易上手,但是想更深的了解Hive的話,還需學習MapReduce,Hive它用于OLAP,不支持事務性。接著再學習HBase面向列族的分布式數(shù)據(jù)庫,它支持事務操作,但是在實踐中個人感覺不太好使。它是架在Hadoop之上的數(shù)據(jù)庫,適用于隨機訪問,實時讀寫。然而有了大量的數(shù)據(jù)之后,如何更好的把來源不同的數(shù)據(jù)導入到自己想要用的數(shù)據(jù)庫中呢,可以使用Sqoop,個人認為它簡單好用,方便。
接下來就可以學習Flume,它是一個分布式的收集日志的框架,可以處理很多種類型的文件。接著就學習Kafka,它是一個消息發(fā)布訂閱實時處理系統(tǒng)。具有高吞吐量的能力。接著可以學習Strom,實時的流計算框架。可以高速的攫取數(shù)據(jù),可以執(zhí)行各種數(shù)據(jù)的并行計算。接下來就可以學習Spark,Spark由SparkSQL、SparkStreaming、MLlib、Graph等組成,可以解決BatchProcessing、StreamProcessing、Ad-hocQuery(即席查詢)等三大核心問題。Spark確實相比于MapReduce來說要快很多,畢竟它是基于內(nèi)存計算的框架。
接下來還可以學習數(shù)據(jù)分析,數(shù)據(jù)挖掘,機器學習等相關的知識。
現(xiàn)在我就開始解讀一下什么是大數(shù)據(jù)?
大數(shù)據(jù)顧名思義就是數(shù)據(jù)量很大,大到什么級別嗎?它不是幾兆,不是幾個GB,而是幾百GB,幾個TB,幾個PB,達到傳統(tǒng)的數(shù)據(jù)庫根本承受不了,現(xiàn)在一般都是用Hadoop技術,Hive技術,Spark技術等處理。
那么大數(shù)據(jù)的特征有哪些呢?有4點
1.數(shù)據(jù)在體量方面很大,比如說文字,有各種各樣的來源,有電子書|實體書|雜志|報刊等,它們的數(shù)據(jù)大吧。
2.數(shù)據(jù)的類型多種多樣,有些是結構化的數(shù)據(jù),像存在Oracle,MySQL這些傳統(tǒng)的數(shù)據(jù)庫里的數(shù)據(jù),一般都是結構化,可以是還有非結構化,比如HTML,WORD,execl等格式。
3.它們的價值密度低,這樣說吧,你比如說觀看一條數(shù)據(jù)好像價值也不大,但是分析所有的數(shù)據(jù)之后呢?總會挖掘出一些重要的東西。
大數(shù)據(jù)的特征
4.處理這些數(shù)據(jù)的速度要快。比如像Hadoop技術的MapReduce計算框架,相比傳統(tǒng)的數(shù)據(jù)庫處理速度要快,它的吞吐量特別的大,再比如Spark,Spark在內(nèi)存方面計算比Hadoop快100倍,在磁盤方面計算快10倍。
大數(shù)據(jù)的處理與傳統(tǒng)的數(shù)據(jù)處理的區(qū)別是什么呢?
就是使用全部的數(shù)據(jù)來分析,得出結論,想想就知道它的好處啦。
大數(shù)據(jù)的應用???
可以做推薦系統(tǒng)的,想電商、影視類的app,你平時關注什么商品,或者瀏覽什么類型的商品,或者看什么類型的影視,或者看誰主要的影視,經(jīng)過大數(shù)據(jù)分析處理之后,這些app就會推薦想類似的商品或者影視
在銷售方面,我想一個例子大家都聽說過,就是尿片和啤酒的捆綁銷售
銀行方面的反欺詐應用。經(jīng)過大量的數(shù)據(jù)分析,可以得出欺詐的行為特征,根據(jù)這些特征就可以更大概率的確定是不是欺詐行為
人工智能方面,想Google的阿爾法狗,無人汽車駕駛等,這些都在使用大數(shù)據(jù)。
....