大數(shù)據(jù)方面核心技術(shù)有哪些?
這個(gè)問(wèn)題提問(wèn)的很有深度,目前大數(shù)據(jù)是個(gè)比較廣義的概念,涉及的方方面面很大,若要給個(gè)很官方的說(shuō)法是比較難,簡(jiǎn)單說(shuō)一下我知道的理解:
一是數(shù)據(jù)采集與預(yù)處理,也就是說(shuō)你不管是任何的大數(shù)據(jù)分析,首先要有數(shù)據(jù)支撐,但是數(shù)據(jù)是很廣的,你需要的數(shù)據(jù)得按關(guān)鍵詞或者一定的分類(lèi)把數(shù)據(jù)進(jìn)行預(yù)處理,以便分析時(shí)提供調(diào)用。數(shù)據(jù)采集分很多很多種,可以是網(wǎng)絡(luò)資源抓取、硬件采集、人工錄入、數(shù)據(jù)對(duì)接、購(gòu)買(mǎi)第三方資源等等,技術(shù)很多種Flume NG、NDC、Logstash、Sqoop、Strom、Zookeeper等。
二是數(shù)據(jù)存儲(chǔ),這是個(gè)很消耗硬件資源的本質(zhì)問(wèn)題,既然是大數(shù)據(jù),說(shuō)明是一個(gè)大型量化的過(guò)程,隨著你分析需求,數(shù)據(jù)會(huì)隨著時(shí)間的推移變得龐大,應(yīng)用多技術(shù)方法有Hadoop、HBase、Phoenix、Yarm、Mesos、Redis、Atlas、Kudu等。
三是數(shù)據(jù)清洗,你的數(shù)據(jù)龐大會(huì)讓你的整體響應(yīng)速度受到極大考驗(yàn),讀寫(xiě)分離,負(fù)載均衡等等問(wèn)題就需要你去想應(yīng)對(duì)方案,應(yīng)用到的查詢(xún)引擎工作流調(diào)度引擎技術(shù)有MapReduce、Oozie、Azkaban等。
四是數(shù)據(jù)查詢(xún)分析,這個(gè)依據(jù)你的業(yè)務(wù)數(shù)據(jù)需求,比如現(xiàn)在應(yīng)用比較廣泛成熟的有商城產(chǎn)品信息推送、頭條新聞推送、廣告推送等等,都是以收集用戶(hù)歷史信息唯獨(dú)去分析,應(yīng)用到的技術(shù)有Hive、Impala、Spark、Nutch、Solr、Elasticsearch等,當(dāng)然還有一些機(jī)器學(xué)習(xí)語(yǔ)言,機(jī)器學(xué)習(xí)算法如貝葉斯、邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)和協(xié)同過(guò)濾等等。
五是數(shù)據(jù)可視化,這也是數(shù)據(jù)分析的最終目的,如何去更好的呈現(xiàn)你的數(shù)據(jù),使你的數(shù)據(jù)變得有價(jià)值是你做這個(gè)分析平臺(tái)的制高點(diǎn),當(dāng)下應(yīng)用比較成熟的技術(shù)有BI Tableau、Qlikview、PowrerBI、SmallBI等。
總結(jié)起來(lái)就是你需要實(shí)現(xiàn)分析,首先要有來(lái)源,然后要有方法,其次要有目的,最后你要面向用戶(hù),這可能是個(gè)漫長(zhǎng)而又考驗(yàn)技術(shù)的過(guò)程,人力物力環(huán)境時(shí)間都將可能是你面臨的難題。
以下圖片來(lái)源于網(wǎng)絡(luò)