什么是大數(shù)據(jù)
說起大數(shù)據(jù),估計大家都覺得只聽過概念,但是具體是什么東西,怎么定義,沒有一個標(biāo)準(zhǔn)的東西,因為在我們的印象中好像很多公司都叫大數(shù)據(jù)公司,業(yè)務(wù)形態(tài)則有幾百種,感覺不是很好理解,所以我建議還是從字面上來理解大數(shù)據(jù),在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的《大數(shù)據(jù)時代》提到了大數(shù)據(jù)的4個特征:
一個是數(shù)量大
一個是價值大
一個是速度快
一個是多樣性
第一個是數(shù)量比較大,只有數(shù)據(jù)體量達到了PB級別以上,才能被稱為大數(shù)據(jù)。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024個G的數(shù)據(jù)。
第二個是價值大,你如果有1PB以上的全國所有20-35年輕人的上網(wǎng)數(shù)據(jù)的時候,那么它自然就有了商業(yè)價值,比如通過分析這些數(shù)據(jù),我們就知道這些人的愛好,進而指導(dǎo)產(chǎn)品的發(fā)展方向等等。如果有了全國幾百萬病人的數(shù)據(jù),根據(jù)這些數(shù)據(jù)進行分析就能預(yù)測疾病的發(fā)生,這些都是大數(shù)據(jù)的價值。
第三個就是多樣性,如果只有單一的數(shù)據(jù),那么這些數(shù)據(jù)就沒有了價值,比如只有單一的個人數(shù)據(jù),或者單一的用戶提交數(shù)據(jù),這些數(shù)據(jù)還不能稱為大數(shù)據(jù),所以說大數(shù)據(jù)還需要是多樣性的,比如當(dāng)前的上網(wǎng)用戶中,年齡,學(xué)歷,愛好,性格等等每個人的特征都不一樣,這個也就是大數(shù)據(jù)的多樣性,當(dāng)然了如果擴展到全國,那么數(shù)據(jù)的多樣性會更強,每個地區(qū),每個時間段,都會存在各種各樣的數(shù)據(jù)多樣性。
第四個是速度快,就是通過算法對數(shù)據(jù)的邏輯處理速度非常快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
大數(shù)據(jù)的行業(yè)應(yīng)用
大數(shù)據(jù)無處不在,大數(shù)據(jù)應(yīng)用于各個行業(yè),包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內(nèi)的社會各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。
制造業(yè),利用工業(yè)大數(shù)據(jù)提升制造業(yè)水平,包括產(chǎn)品故障診斷與預(yù)測、分析工藝流程、改進生產(chǎn)工藝,優(yōu)化生產(chǎn)過程能耗、工業(yè)供應(yīng)鏈分析與優(yōu)化、生產(chǎn)計劃與排程。
金融行業(yè),大數(shù)據(jù)在高頻交易、社交情緒分析和信貸風(fēng)險分析三大金融創(chuàng)新領(lǐng)域發(fā)揮重大作用。
汽車行業(yè),利用大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)的無人駕駛汽車,在不遠(yuǎn)的未來將走入我們的日常生活。
互聯(lián)網(wǎng)行業(yè),借助于大數(shù)據(jù)技術(shù),可以分析客戶行為,進行商品推薦和針對性廣告投放。
電信行業(yè),利用大數(shù)據(jù)技術(shù)實現(xiàn)客戶離網(wǎng)分析,及時掌握客戶離網(wǎng)傾向,出臺客戶挽留措施。
能源行業(yè),隨著智能電網(wǎng)的發(fā)展,電力公司可以掌握海量的用戶用電信息,利用大數(shù)據(jù)技術(shù)分析用戶用電模式,可以改進電網(wǎng)運行,合理設(shè)計電力需求響應(yīng)系統(tǒng),確保電網(wǎng)運行安全。
物流行業(yè),利用大數(shù)據(jù)優(yōu)化物流網(wǎng)絡(luò),提高物流效率,降低物流成本。
城市管理,可以利用大數(shù)據(jù)實現(xiàn)智能交通、環(huán)保監(jiān)測、城市規(guī)劃和智能安防。
生物醫(yī)學(xué),大數(shù)據(jù)可以幫助我們實現(xiàn)流行病預(yù)測、智慧醫(yī)療、健康管理,同時還可以幫助我們解讀DNA,了解更多的生命奧秘。
體育娛樂,大數(shù)據(jù)可以幫助我們訓(xùn)練球隊,決定投拍哪種題財?shù)挠耙曌髌罚约邦A(yù)測比賽結(jié)果。
安全領(lǐng)域,政府可以利用大數(shù)據(jù)技術(shù)構(gòu)建起強大的國家安全保障體系,企業(yè)可以利用大數(shù)據(jù)抵御網(wǎng)絡(luò)攻擊,警察可以借助大數(shù)據(jù)來預(yù)防犯罪。
個人生活, 大數(shù)據(jù)還可以應(yīng)用于個人生活,利用與每個人相關(guān)聯(lián)的“個人大數(shù)據(jù)”,分析個人生活行為習(xí)慣,為其提供更加周到的個性化服務(wù)。
大數(shù)據(jù)的價值,遠(yuǎn)遠(yuǎn)不止于此,大數(shù)據(jù)對各行各業(yè)的滲透,大大推動了社會生產(chǎn)和生活,未來必將產(chǎn)生重大而深遠(yuǎn)的影響。
大數(shù)據(jù)使用的技術(shù)
說起大數(shù)據(jù),大數(shù)據(jù)有三個層數(shù)據(jù)采集、存儲、計算三層。
第一個是數(shù)據(jù)采集層,以App、saas為代表的服務(wù)。
大數(shù)據(jù)基礎(chǔ)階段需掌握的技術(shù)有:Linux、Docker、KVM、MySQL基礎(chǔ)、Oracle基礎(chǔ)、MongoDB、redis以及hadoopmapreduce hdfs yarn等。
第二個數(shù)據(jù)存儲層,比如云存儲,需掌握的技術(shù)有:hbase、hive、sqoop等。
比如:Hadoop作為一個開源的框架,專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計,HDFS作為其核心的存儲引擎,已被廣泛用于數(shù)據(jù)存儲。HBase,是一個分布式的、面向列的開源數(shù)據(jù)庫,可以認(rèn)為是hdfs的封裝,本質(zhì)是數(shù)據(jù)存儲、NoSQL數(shù)據(jù)庫。
HBase是一種Key/Value系統(tǒng),部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop一樣,Hbase目標(biāo)主要依靠橫向擴展,通過不斷增加廉價的商用服務(wù)器,來增加計算和存儲能力。
第三個是數(shù)據(jù)計算應(yīng)用層,以數(shù)據(jù)為基礎(chǔ),為將來的移動社交、交通、教育,金融進行服務(wù),涉及到大數(shù)據(jù)架構(gòu)設(shè)計階段需掌握的技術(shù)有:Flume分布式、Zookeeper、Kafka等,以及大數(shù)據(jù)實時計算階段需掌握的技術(shù)有:Mahout、Spark、storm。
技術(shù)融合、數(shù)據(jù)合規(guī)、應(yīng)用深化和資產(chǎn)管理是2019大數(shù)據(jù)發(fā)展的關(guān)鍵詞。
2019年以來,全球大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)、應(yīng)用等多方面的發(fā)展呈現(xiàn)了新的趨勢,也正在進入新的階段。當(dāng)前,大數(shù)據(jù)技術(shù)呈現(xiàn)出六大融合趨勢:
(一)算力融合:多樣性算力提升整體效率
(二)流批融合:平衡計算性價比的最優(yōu)解
(三)TA 融合:混合事務(wù)/分析支撐即時決策
(四)模塊融合:一站式數(shù)據(jù)能力復(fù)用平臺
(五)云數(shù)融合:云化趨勢降低技術(shù)使用門檻
(六)數(shù)智融合:數(shù)據(jù)與智能多方位深度整合
近兩年來,各國在數(shù)據(jù)合規(guī)性方面的重視程度越來越高,但數(shù)據(jù)合規(guī)的進程仍任重道遠(yuǎn)。2019年5月25日,旨在保護歐盟公民的個人數(shù)據(jù)、對企業(yè)的數(shù)據(jù)處理提出了嚴(yán)格要求的《通用數(shù)據(jù)保護條例》。
歐盟EDPB的報告顯示,GDPR實施一年以來,歐盟當(dāng)局收到了約145000份數(shù)據(jù)安全相關(guān)的投訴和問題舉報;共判處5500萬歐元行政罰款。蘋果、微軟、Twitter、WhatsApp、Instagram等企業(yè)也都遭到調(diào)查或處罰。GDPR的正式實施之后,帶來了全球隱私保護立法的熱潮,并成功提升了社會各領(lǐng)域?qū)τ跀?shù)據(jù)保護的重視。
我國大數(shù)據(jù)的行業(yè)應(yīng)用更加廣泛,正加速滲透到經(jīng)濟社會的方方面面。這幾年,無論是從新增企業(yè)數(shù)量、融資規(guī)模還是應(yīng)用熱度來說,與大數(shù)據(jù)結(jié)合緊密的行業(yè)逐步向工 業(yè)、政務(wù)、電信、交通、金融、醫(yī)療、教育等領(lǐng)域廣泛滲透,應(yīng)用逐漸向生產(chǎn)、物流、供應(yīng)鏈等核心業(yè)務(wù)延伸,涌現(xiàn)了一批大數(shù)據(jù)典型應(yīng)用,企業(yè)應(yīng)用大數(shù)據(jù)的能力逐漸增強。
最后,圍繞技術(shù)、應(yīng)用、治理三個方面對大數(shù)據(jù)發(fā)展進行了展望:技術(shù)方面,我們?nèi)匀惶幵凇皵?shù)據(jù)大爆發(fā)”的初期,隨著5G、工業(yè)互聯(lián)網(wǎng)的深入發(fā)展,將帶來更大的“數(shù)據(jù)洪流”,這就為大數(shù)據(jù)的存儲、分析、管理帶來更大的挑戰(zhàn),牽引大數(shù)據(jù)技術(shù)再上新的臺階。硬件與軟件的融合、數(shù)據(jù)與智能的融合將帶動大數(shù)據(jù)技術(shù)向異構(gòu)多模、超大容量、超低時延等方向拓展。
應(yīng)用方面,大數(shù)據(jù)行業(yè)應(yīng)用正在從消費端向生產(chǎn)端延伸,從感知型應(yīng)用向預(yù)測型、決策型應(yīng)用發(fā)展。當(dāng)前,互聯(lián)網(wǎng)行業(yè)已經(jīng)全面進入“DT時代”。未來幾年,隨著各地政務(wù)大數(shù)據(jù)平臺和大型企業(yè)數(shù)據(jù)中臺的建成,將促進政務(wù)、民生與實體經(jīng)濟領(lǐng)域的大數(shù)據(jù)應(yīng)用再上新的臺階。
治理方面,隨著國家數(shù)據(jù)安全法律制度的不斷完善,各行業(yè)的數(shù)據(jù)治理也將深入推進。數(shù)據(jù)的采集、使用、共享等環(huán)節(jié)的亂象得到遏制,數(shù)據(jù)的安全管理成為各行各業(yè)自覺遵守的底線,數(shù)據(jù)流通與應(yīng)用的合規(guī)性將大幅提升,健康、可持續(xù)的大數(shù)據(jù)發(fā)展環(huán)境逐步形成。