隨著大數據逐漸開始落地應用,大數據技術的各種指標也逐漸開始引起更多的關注,尤其是對于傳統行業來說,如何有效利用大數據技術來輔助創新和提升運營效率也是必須要思考的問題。
在實際的生產環境下,要想有效利用大數據首先要對大數據技術的各項技術指標有一個整體的認知能力,其中就涉及到如何來界定準、細、全、穩和快,這些指標對于大數據實現數據價值化也有比較直接的意義。
所謂的“準”在大數據中涉及到多個元素,涉及到數據的關聯性描述、數據緯度、語義分析、算法設計等多個內容。簡單的說,數據量越大、數據緯度越高、問題描述越清晰則準確率也會更高,當然大數據是否“準”與算法設計也有非常直接的關系。
“細”和“全”分別代表大數據的深度和廣度,“細”主要體現在對數據挖掘的深度上能否滿足應用的需求,能否通過數據挖掘發現新的價值,深度學習目前在“細”的方面正在不斷向前推進,“細”對于算力的要求是比較高的。要想做到“全”,首先應該重點從數據采集入手,而采集數據與物聯網建設也有比較直接的關系。
“穩”和“快”是衡量大數據可用性的重要指標,“穩”不僅代表穩定的系統運行能力,更代表了結果的一致性表現,而“快”的定義對于整個系統的運行效率有較為直接的影響。要想做到穩,首先要做到不同類型數據的不同處理方式,而要想做到快則涉及到計算方式,比如在大數據平臺的采用方面,Spark在很多情況下要明顯快于Hadoop。
最后,大數據系統能否實現準、細、全、穩和快,與多方面因素都有關系,判斷的具體方式除了采用數據集進行驗證之外,另一個辦法就是進行落地應用實踐,這個過程也能夠不斷完善大數據平臺的設計。