很高興能夠和你一起討論大數據是干什么的。
這些年以來,我們已經通過各種渠道聽說過大數據;大數據出現的頻率極高,給大家提供便利的生活支撐,也受到大家極高的關注?,F在而今眼目下,好像開口閉口不提一下大數據,都覺得自己Low了的感覺。那我們就來了解一下什么叫大數據,了解大數據的特性,以及存在的危險。
大數據的定義
一、Volume(大量)
大數據有多大呢。就以我們日常接觸傳統數據來進行恒量吧。
一個中文漢字2個字節,即2byte。
1KB=1024B(KB-kilobyte)
1MB=1024KB(MB-megabyte)
1GB=1024MB(GB-gigabyte)
1TB=1024GB(TB-terabyte)
1PB=1024TB(PB-petabyte)
1EB=1024PB(EB-exabyte)
1ZB=1024EB(ZB-zettabyte)
簡單的工式可能阻礙你的理解,那我們以一下常用數據來幫助你理解。
1、500G普通筆記本電腦硬盤容量;
2、1TB普通移動硬盤容量;
3、1ZB其中據相關資料顯示,2011年,全球被創建和復制的數據總量為1.8ZB;
二、Velocity(時效)
大數據具有一定的時效性。
每一條數據,都是具有一定的時效性的。例如:幾個月以前全球的新冠肺炎疫情累積確診數量為0;截止目前為止,全球已經有超過300萬人確診感染新冠肺炎。每日呈現的新聞排行榜,也是不停地在變化。每一條數據的產生,到使用,到消亡,所經歷的時間越來越短;熱搜的排行十幾分鐘更新一次,實際上,信息的變化更快,快到超出我們的想像。
引用一句話:
就在剛剛過去的這一分鐘,數據世界里發生了什么?
Email:2.04億封被發出
Google:200萬次搜索請求被提交
Youtube:2880分鐘的視頻被上傳
Facebook:69.5萬條狀態被更新
Twitter:98000條推送被發出
12306:1840張車票被賣出
……
以我們防控新冠肺炎中比較出采的健康碼為例:
我們每個人在支付寶上傳了我們的相關信息,支付寶根據我們的位置信息、通信信息、健康信息等等給我們及時更新健康碼顏色。如果不具有時效性,那么這個健康碼就毫無用處。
三、Variety(多樣)
大數據的數據來源是多樣化的,任何在網上能接觸到的信息,或者能搜集到的信息,都會成為大數據的基本信息資料。
每個人的基礎信息,包括姓名,年齡,性別,身份證號,電話號碼,你日常通過社交軟件搜索的內容等等;
每個地圖的信息,經度,緯度,路由,你日常通過導航軟件展現出來的信息;
音樂,視頻,文章,圖片,你每天在網上瀏覽的海量數據都是大數據。
……
四、Value(低價值密度)
大數據的信息量太多,但是真正有效的,有價值的信息確相當有限。比如,某房產中介商獲取了一百萬人所有身份信息,但是,對他們有效的信息,只限定在該城市中,有購買能力,有購買需求的潛在對象;而其他所有的信息對于該中介來說,毫無用處。
對于所有的企業來說,能夠從低價值密度中獲得對他有效的信息,再對該信息進行精準處理,則相當重要。
五、Veracity(真實性)
大數據的基礎信息是真實的,就看每個企業能否在這海量的真實的基礎信息中,獲取最有效的資源。
大數據的挑戰:
當大數據與云計算結合起來之后,大數據就大大向前邁出了一步,大數據給大家的生活帶來便利;在這一大跨步當中,安全永遠是無法避免的話題。
想一想,很多購物軟件的殺熟,新注冊人員能看到價格和老用戶不一致,這是不是可怕?
想一想,如果并非因為疫情原因,有人隨便一查就能知道你的位置信息,通信信息,和哪些人接觸過,是不是可怕?
想一想,你現在手機中的很多APP一直在忽悠你打開的權限,是不是可怕?
當你我在享受大數據的快感的時候,有沒有發現自己也是穿著皇帝的新裝徜徉在大數據的海洋中。