大數據是我的主要研究方向之一,這個問題也比較有代表性,所以我來回答一下。
大數據項目不僅涉及到數據的存儲、安全、分析,還涉及到數據的采集、整理、呈現和應用等內容,并且與物聯網、云計算關系密切。下面我從大數據的產業鏈入手,來談一下如何開始學習大數據。
大數據的產業鏈
我們談到大數據首先要了解到底什么是大數據,大數據都涉及到哪些技術,大數據都能做什么事情?
早期我們在談論大數據的時候,我們更多的強調數據的規模大、結構多樣、速度快、價值密度低等概念,而目前的大數據代表了圍繞數據的整個產業鏈,包括數據的采集一直到數據的分析、呈現等內容。
那么,大數據又是哪兒來的呢?一個來源是傳統的信息系統,包括ERP系統等,另一個重要的來源是物聯網系統,目前這是大數據最重要的數據來源之一,可以說物聯網的發展直接導致了大數據的出現。所以,要學習大數據首先就要了解物聯網。
接下來,數據通過網絡傳送到云計算平臺,在云計算平臺的支持下,大數據完成數據的存儲、安全和分析的一系列操作,可以說云計算平臺給大數據提供了支撐環境。所以,要學習大數據也要了解云計算。
現在的大數據不僅僅能夠做數據分析,更是為人工智能提供了支撐,比如在機器學習領域,需要大量的訓練數據來訓練算法,而大數據恰恰可以提供數據。可以說現在的大數據為科技領域的發展起到了重要的助力作用。
大數據的技術組成
大數據是一個典型的多學科交叉領域,需要計算機專業、數學、統計等專業人才共同合作。大數據平臺有兩個重要基礎,一個是分布式存儲,一個是分布式計算,在這兩個基礎功能之上再完成各個場景的應用。
比如,目前比較流行的大數據平臺有Hadoop和Spark,Hadoop平臺是基于Java語言開發的,包括了HDFS和MapReduce兩個大部分,Hadoop生態健全,應用廣泛,目前很多商業大數據系統都是基于Hadoop構建的。Spark采用基于內存運算的模式,所以在速度上要比Hadoop快一些,另外Spark所采用的Scala語言更靈活一些,得到了很多Java程序員的喜愛。
當然,搭建Hadoop、Spark平臺只是第一步,接下來要對數據進行分析、呈現和應用。大數據算法工程師要根據不同的應用場景來設計不同的算法,常見的算法包括支持向量機、樸素貝葉斯、k近鄰、決策樹等等,這些算法往往也是機器學習的常見算法,所以從大數據轉向機器學習是非常方便的,我就是從大數據開始進入機器學習領域的研究。
對于統計專業人才來說,大數據是一個重要的舞臺,大數據能為統計提供豐富的數據,可以使用很多工具完成數據分析任務,R語言就是一個好選擇。
相信通過我的介紹,大家對大數據有了一個概要的了解。
總之,大數據的學習要找到一條適合自己的切入點,然后逐步深入。如果是程序員,完全可以從平臺搭建開始。