謝謝邀請!
大數據的數據來源主要有三個渠道,分別是物聯網系統、傳統信息處理系統以及互聯網應用(Web和App),所以要想獲得大數據就要從這三個渠道來獲取。
物聯網系統產生的數據占據著大數據中的重要比例,物聯網產生的數據多以非結構化數據為主,包括視頻、音頻、傳感數據等等。物聯網的應用領域眾多,比如工業物聯網、農業物聯網、車聯網、智慧城市等都會產生大量的數據,通常情況下這些數據的采集都是有嚴格要求的,是不能開放給個人的。如果個人要想獲得這部分數據,一個比較可行的方案是跟數據采集者進行合作,比如做數據分析等業務。
傳統信息系統涵蓋的領域非常廣泛,有政務系統、企業ERP、教育信息系統、醫療信息系統等等,傳統信息系統涵蓋的數據多以結構化數據為主,而且往往有較高的精確度和關聯關系,這部分數據的價值密度也是相對比較高的。
但是傳統信息系統涵蓋的數據往往涉及到個人隱私、商業機密等內容,所以這部分內容通常是受到嚴密保護的。隨著大數據技術的發展,業界對于政務系統的數據開放的呼聲越來越高,經過脫敏的數據往往并不會對個人隱私構成侵犯,所以未來某些政務系統的大數據會陸續開放出來。
互聯網應用也是產生大數據的重要基礎之一,包括各種Web應用以及大量的App產品,這部分數據多以半結構化為主,數據內容也存在真假難辨的情況,但是由于這部分數據的價值密度相對還是比較高的,所以現在不少互聯網公司就是基于這些數據對用戶進行“畫像”,從而進行多維度的分類。
隨著這些互聯網產品采集的數據越來越多,用戶的“畫像”也會越來越清晰,大數據分析結果也會越來越準確。對于個人用戶來說,要想獲得這部分數據,有三個辦法,一個是自己開發互聯網應用,另一個是對目前的互聯網數據進行爬取,最后是與互聯網公司開展合作,這樣也能拿到一部分數據。
雖然現在大數據相關技術已經開始逐漸落地,很多傳統信息系統之間也形成了互聯互通,但是數據流通依然有大量的環節需要打通,一定程度上的“數據孤島”現象依然存在。相信隨著云計算、大數據和物聯網的發展,數據流通將會越來越方便和合理。
作者簡介:中國科學院大學計算機專業研究生導師,從事IT行業多年,研究方向包括動態軟件體系結構、大數據、人工智能相關領域,有多年的一線研發經驗。作者,歡迎咨詢計算機相關問題。