大數據主要涉及的內容有哪些?
記得大學畢業的第一份工作,我們公司的業務就是做BI產品研發。哪時候互聯網沒有今天這樣火熱,也沒有大數據、移動互聯網的概念。記得有一次和同事去華師后門買書,同事買了一本javascript,我買了一個ajax。那時候,我們產品的客戶端是用Delphi開發的,其實買書就是為了補充一點新知識,工作中基本用不到。在公司的第三年,公司要轉做web的BI展示界面,我幫公司用svg做了兩個展示組件,心里還是美滋滋的。
隨著時間的推移、電商的發展,大數據、云計算似乎成了每個互聯網公司對外宣傳的標準說法。如果不講點這些概念,似乎給人感覺缺少些逼格。記得10年在公司的一次培訓上,有個同事問,云計算是不是你搞出來的,就因為我姓云。聽到這個問題,我哭笑皆非。
大數據這個概念喊了這么多年了,很多人還是不清楚大數據指的是什么?為了回答好這個問題,我還去專門搜索了大數據的概念。老實說百科的解釋,連我從事了這么多年互聯網的人,也沒看懂。
“大數據(big data),IT行業術語,是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產?!?/p>
什么是大數據?
大數據說的直白點,就是運用一套技術手段,把數據變成信息和知識的過程。數據對我們來說是沒有價值的東西,我們要把數據加工成信息或者知識,才能被人類理解。舉個例子:公司一天的考勤數據是意義不大的東西,但是我們通過一月考勤數據的分析和比較,我們發現張三這個員工老是遲到。那么,張三老是遲到這個信息就對公司的管理有幫助了,領導需要去了解下,是不是張三家有什么事?或者張三最近出現別的狀況?
大數據的“大”又如何理解呢?所謂“大”,一層含義指數據的體量大,在數據庫時代數據以GB為單位,但在互聯網時代以TB為單位,數據的體量升了一個數量級。另一層含義指數據形式的多樣化。在傳統BI應用中,數據大多是存儲在關系型數據庫中,但在互聯網時代,數據的形式變得多樣化了,例如:文本、視頻及數據庫。明白了大數據的概念,我們下來看,大數據包含哪些內容。
大數據的內涵
大數據從技術的角度去看,包含兩大分支:數據分析和數據挖掘。數據分析是對歷史數據的分析,為管理提供輔助決策信息。數據挖掘是研究趨勢和未來的問題,主要應用在預測方面。從業務的時效性要求去看,分為:實時在線分析系統和離線分析系統。例如:網站的實時用戶區域分佈狀況就是實時分析應用;2019年全國各省GDP排名分析就是離綫分析應用。
從大數據項目的過程看,大數據包含:數據采集、數據收集、數據轉化與存儲、數據建模分析、上層應用展示等。大數據的難點,在于海量數據的分析,這又涉及到海量數據存儲及分析架構等問題。
按照Hadoop的技術體系來講,flume用來收集和轉化存儲在服務器各處的日志及數據,存儲在以hdfs文件系統或者hive或者hbase等數據倉庫中,再利用hadoop架構的規范,編寫mapreduce作業,再把分析結果展示給用戶。當然,這里面設計到數據分析的各種算法。
大數據相關的工作崗位
下面介紹下,大數據相關的核心崗位:
業務專家或者顧問:為大數據提供研發方向和確定研究主題,并為技術人員提供業務支持。
數據分析師:從事數據收集、整理、分析并依據數據做出評估和預測的專業人員。
數據挖掘工程師:從海量數據中發現規律,需要較好的算法和數學基礎。
可視化工程師:提供美觀、便于人們理解的分析的結果展示界面。
維護工程師:負責服務器環境的配置、搭建和運維。
每個公司采用的大數據技術線路不同,工作崗位會有所差距。感興趣的朋友,可以自己去了解下,現有的幾種大數據方案。
隨著5G網絡的建設,接入網絡的iot設備會越來越多,互聯網所積累的數據,還會成級數增加。在未來幾年,大數據行業依然是朝陽行業,需要的大數據人才會越來越多,希望本文對有意愿加入大數據行業的朋友,有所啟發和幫助,也希望大家能對大數據的概念,有更清晰的認識。謝謝!