大數據是目前互聯網及商務應用最重要的組成部分。
分三部分:大數據的來源,大數據的特點及大數據的應用
大數據來源
關于數據來源,互聯網及物聯網是產生并承載大數據的基地?;ヂ摼W公司是天生的大數據公司,在搜索、社交、媒體、交易等各自核心業務領域,積累并持續產生海量數據。如阿里,百度,騰訊等。物聯網設備每時每刻都在采集數據,設備數量和數據量都與日俱增。這兩類數據資源都是大數據金礦,還有一些企業,在業務中也積累了許多數據,如房地產交易、大宗商品價格、特定群體消費信息等。當然還有另外一類是政府部門掌握的數據資源。
大數據主要特點:
這是一個在討論大數據時時常被忽略的一個屬性,部分原因是這個屬性相對來說比較新,盡管它與其他的屬性同樣重要。這是一個與數據是否可靠相關的屬性,也就是那些在數據科學流程中會被用于決策的數據(而這不同于與傳統的數據分析流程),精確性與信噪比(signal-to-noiseratio)有關。
例如,在大數據中發現哪些數據對商業是真正有效的,這在信息理論中是個十分重要的概念。由于并不是所有的數據源都具有相等的可靠性,在這個過程中,大數據的精確性會趨于變化,如何增加可用數據的精確性是大數據的主要挑戰。
大數據是在運動著的,通常處于很高的傳輸速度之下。它經常被認為是數據流,而數據流通常是很難被歸檔的(考慮到有限的網絡存儲空間,單單是高速就已經是一個巨大的問題)。這就是為什么只能收集到數據其中的某些部分。如果我們有能力收集數據的全部,長時間存儲大量數據也會顯得非常昂貴,所以周期性的收集數據遺棄一部分數據以節省空間,僅保留數據摘要(如平均值和方差)。
大數據由大量數據組成,從幾個TB到幾個ZB。這些數據可能會分布在許多地方,通常是在一些連入因特網的計算網絡中。
一般來說,凡是滿足大數據的幾個V的條件的數據都會因為太大而無法被單獨的計算機處理。單單這一個問題就需要一種不同的數據處理思路,這也使得并行計算技術(例如MapReduce)得以迅速崛起。
在過去,數據或多或少是同構的,這種特點也使得它更易于管理。這種情況并不出現在大數據中,由于數據的來源各異,因此形式各異。這體現為各種不同的數據結構類型,半結構化以及完全非結構化的數據類型。
結構化數據多被發現在傳統數據庫中,數據的類型被預定義在定長的列字段中。半結構化數據有一些結構特征,但不總是保持一致(舉例來說,看一看JSON文件),使得這種類型難以處理。更富于挑戰的是非結構化數據(例如純文本文件)毫無結構特征可言。在大數據中,更常見的是半結構化數據,而且這些數據源的數據格式還各不相同。
在過去的幾年里,半結構化數據和結構化數據成為了大數據的主體數據類型。
盡管有些網絡數據披著大數據的外衣,但并不是每一種數據融合都可以叫做大數據。注意,即使有些數據擁有這4種屬性中的一種或多種,也不能被歸類為大數據,要完全擁有以上4種特性才能稱得上是大數據。
大數據應用
大數據主要有以下幾種較為常用的功能:
從這里你就知道為什么當你在淘寶搜索過某一樣東西后,近期電腦里的廣告都是與之相關的信息,或者是你在里打開過幾個“王者榮耀”視頻,后面他就會推送更多的這類視頻出現在你的手機上。
在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏多智時代,及時獲取人工智能、大數據、云計算和物聯網的前沿資訊和基礎知識,讓我們一起攜手,引領人工智能的未來!