現在已經有越來越多的行業和技術領域需求大數據分析系統,例如金融行業需要使用大數據系統結合VaR(valueatrisk)或者機器學習方案進行信貸風控,零售、餐飲行業需要大數據系統實現輔助銷售決策,各種IOT場景需要大數據系統持續聚合和分析時序數據,各大科技公司需要建立大數據分析中臺等等。
抽象來看,支撐這些場景需求的分析系統,面臨大致相同的技術挑戰:
1業務分析的數據范圍橫跨實時數據和歷史數據,既需要低延遲的實時數據分析,也需要對PB級的歷史數據進行探索性的數據分析;
2可靠性和可擴展性問題,用戶可能會存儲海量的歷史數據,同時數據規模有持續增長的趨勢,需要引入分布式存儲系統來滿足可靠性和可擴展性需求,同時保證成本可控;
3技術棧深,需要組合流式組件、存儲系統、計算組件和;
4可運維性要求高,復雜的大數據架構難以維護和管控;