數據的核心價值體現在哪里?
一、大數據發展現狀1. 什么是大數據
大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
大數據是一種需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
2. 大數據戰略意義
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
3. 大數據發展現狀
大數據相關技術、產品、應用和標準不斷發展,逐漸形成了包括數據資源與API、開源平臺與工具、數據基礎設施、數據分析、數據應用等板塊構成的大數據生態系統,并持續發展和不斷完善,其發展熱點呈現了從技術向應用、再向治理的逐漸遷移。經過多年來的發展和沉淀,人們對大數據已經形成基本共識:大數據現象源于互聯網及其延伸所帶來的無處不在的信息技術應用以及信息技術的不斷低成本化。大數據泛指無法在可容忍的時間內用傳統信息技術和軟硬件工具對其進行獲取、管理和處理的巨量數據集合,具有海量性、多樣性、時效性及可變性等特征,需要可伸縮的計算體系結構以支持其存儲、處理和分析。
當互聯網技術發展到今天,大數據和云計算早已滲透我們生活。大數據以“降低信息不對稱和提高決策有效性”為目標,可廣泛作用于幾乎所有行業,必將掀起一場新的革命。目前,大數據已經迎來了高速發展的黃金成長期,作用正在日漸也凸顯,我們看好其發展趨勢,推薦投資者提高對其中孕育機會的關注度。
從源到流看,大數據涵蓋數據入口、數據融合處理、數據應用三個過程;按照物理分層,大數據又可以分為硬件、基礎軟件、應用軟件和信息服務四個維度。每一個細分領域都正在不斷演進,存在不少問題也孕育著巨大的機會,萬千創業者不斷地尋找著新的突破口。
二、大數據的核心價值大數據的價值本質上體現為:提供了一種人類認識復雜系統的新思維和新手段。就理論上而言,在足夠小的時間和空間尺度上,對現實世界數字化,可以構造一個現實世界的數字虛擬映像,這個映像承載了現實世界的運行規律。在擁有充足的計算能力和高效的數據分析方法的前提下,對這個數字虛擬映像的深度分析,將有可能理解和發現現實復雜系統的運行行為、狀態和規律。應該說大數據為人類提供了全新的思維方式和探知客觀規律、改造自然和社會的新手段,這也是大數據引發經濟社會變革最根本性的原因。
大數據的價值體現在以下幾個方面:
(1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷;
(2)做小而美模式的中小微企業可以利用大數據做服務轉型;
(3)面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。
三、大數據核心技術大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。
一個完整的大數據分析工作流程大致包括以下幾方面:
大數據收集與導入 → 大數據清洗與質量控制 → 大數據管理與存儲 → 大數據分析與可視化 → 大數據建模與模型管理
1. 大數據收集與導入
大數據的收集與導入就是把數據寫入數據庫。在深度學習興起之前,“數據”大多是結構化數據(表格);而到了大數據時代,“數據”不只是結構化數據,更多的是非結構化數據(圖片,聲音,視頻)。隨著需要收集的數據量的增大,數據的實時收集、實時處理變得不是那么容易。
大數據采集是各種不同數據源的數據進入大數據系統的第一步,這個步驟的性能將會直接決定在一個給定的時間段內大數據系統能夠處理的數據量的能力。數據采集過程中的一些常見步驟是:解析步驟去重,數據轉換,并將其存儲到某種持久層,涉及數據采集過程的邏輯。
大數據采集工具需要滿足以下目標和要求:
高性能:處理大數據的基本要求,如每秒處理幾十萬條數據
海量式:支持TB級甚至是PB級的數據規模
實時性:保證較低的延遲時間,達到秒級別,甚至是毫秒級別
分布式:支持大數據的基本架構,能夠平滑擴展
易用性:能夠快速進行開發和部署
可靠性:能可靠的處理數據
為了解決這些問題,目前流行的工具有以下幾種:
Spark
Spark流是對于Spark核心API的拓展,從而支持對于實時數據流的可拓展,高吞吐量和容錯性流處理。數據可以由多個源取得,例如:Kafka,Flume,Twitter,ZeroMQ,Kinesis或者TCP接口,同時可以使用由如map,reduce,join和window這樣的高層接口描述的復雜算法進行處理。最終,處理過的數據可以被推送到文件系統,數據庫和HDFS。
理與
Kafka
Kafka是一種高吞吐量的分布式發布訂閱消息系統,它可以處理消費者在網站中的所有動作流數據。它的最大的特性就是可以實時的處理大量數據以滿足各種需求場景:比如基于Hadoop的批處理系統、低延遲的實時系統、Storm/Spark流式處理引擎,Web/Nginx日志、訪問日志,消息服務等。
Kafka有如下特性:
高吞吐量、低延遲:Kafka每秒可以處理幾十萬條消息,它的延遲最低只有幾毫秒,每個topic可以分多個partition, consumer group 對partition進行consume操作。
可擴展性:Kafka集群支持熱擴展
持久性、可靠性:消息被持久化到本地磁盤,并且支持數據備份防止數據丟失
容錯性:允許集群中節點失敗(若副本數量為n,則允許n-1個節點失敗)
高并發:支持數千個客戶端同時讀寫
Flume
Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。
Flume具有如下優勢:
Flume可以將應用產生的數據存儲到任何集中存儲器中,比如HDFS,HBase
當收集數據的速度超過將寫入數據的時候,也就是當收集信息遇到峰值時,這時候收集的信息非常大,甚至超過了系統的寫入數據能力,這時候,Flume會在數據生產者和數據收容器間做出調整,保證其能夠在兩者之間提供平穩的數據.
提供上下文路由特征
Flume的管道是基于事務,保證了數據在傳送和接收時的一致性.
Flume是可靠的,容錯性高的,可升級的,易管理的,并且可定制的。
2. 大數據質量控制
圍繞完整性、準確性、一致性、及時性監控分析數據質量問題、提升企業數據質量。從數據接入、數據加工、數據導出、指標、數據應用實現全鏈路血緣跟蹤、提前預判數據是否能夠準時產出、了解任務失敗后影響分析以及快速地修復。
3. 大數據管理與存儲
目前,大數據主要來源于搜索引擎服務、電子商務、社交網絡、音視頻、在線服務、個人數據業務、地理信息數據、傳統企業、公共機構等領域。
因此數據呈現方法眾多,可以是結構化、半結構化和非結構化的數據形態,不僅使原有的存儲模式無法滿足數據時代的需求,還導致存儲管理更加復雜。
大數據的價值密度相對較低,以及數據增長速度快、處理速度快、時效性要求也高,在這種情況下如何結合實際的業務,有效地組織管理、存儲這些數據以能從浩瀚的數據中,挖掘其更深層次的數據價值,需要亟待解決。大規模的數據資源蘊含著巨大的社會價值,有效管理數據,對國家治理、社會管理、企業決策和個人生活、學習將帶來巨大的作用和影響,因此在大數據時代,必須解決海量數據的高效存儲問題。
大數據存儲工具如下:
HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統。HBase不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。
ElasticSearch是一個基于Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java語言開發的,并作為Apache許可條款下的開放源碼發布,是一種流行的企業級搜索引擎。ElasticSearch用于云計算中,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便。4. 大數據分析與可視化
數據可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。數據可視化與信息圖形、信息可視化、科學可視化以及統計圖形密切相關。當前,在研究、教學和開發領域,數據可視化乃是一個極為活躍而又關鍵的方面。“數據可視化”這條術語實現了成熟的科學可視化領域與較年輕的信息可視化領域的統一。
大數據分析與可視化工具主要有:QlikView,Klipfolio,Tableau,Geckoboard,Power BI和Google Data Studio等。
5. 大數據建模與模型管理
大數據建模功能會涉及哪些工作?
第一步是業務理解和業務梳理,將業務問題抽象成數學問題。
對應的是需求和產品的職位,要求業務溝通能力,要求對所在行業的業務知識和運營有了解。
第二步,數據探索。
一般在和業務初步確實問題后要取數據,做數據探索,確定和證實前期的問題是不是真問題,還是假需求,如果是真問題,則確定下一步問題方向。這一步要求數據庫,探索性數據分析,問題分析等技能。相應的是BI的職位,有些公司統稱數據分析。
第三步,數學建模。
也就是核心的數據挖掘算法。在工業屆,都有現在的工具,主要時間都花在特征挖掘和調參方面。
第四步,提出解決方案。
大數據模型部分工具舉例如下:
Power Designer
ER/Studio
Sparx Enterprise Architect
CA Erwin
IBM - InfoSphere Data Architect
四、大數據未來的發展機遇目前制約大數據更好更快發展的主要問題有以下幾點:
一是數據的歸屬權不清晰,各家數據資產型企業私密占有平臺數據,制約著大數據的融合及發展;
二是數據有效性將直接影響到大數據的應用水平,從源數據到分析樣本的采集過程需要大量人工干預;
三是配套軟硬件成熟度不夠:適宜處理海量數據的數據庫軟件尚未成熟,私有云的普及程度也不高;
四是數據尚未獲得真正意義上的定價和產業化。
現在已經有越來越多的行業和技術領域需求大數據分析系統,例如金融行業需要使用大數據系統結合 VaR(value at risk) 或者機器學習方案進行信貸風控,零售、餐飲行業需要大數據系統實現輔助銷售決策,各種 IOT 場景需要大數據系統持續聚合和分析時序數據,各大科技公司需要建立大數據分析中臺等等。