五分鐘看懂大數據技術?
大數據技術涉及:數據的采集、預處理、和分布式存儲、以及數據倉庫、機器學習、并行計算和可視化等方面。
對于大數據技術,應用廣泛的是以hadoop和spark為核心的生態系統。hadoop提供一個穩定的共享存儲和分析系統,存儲由hdfs實現,分析由mapreduce實現,
1、hdfs:Hadoop分布式文件系統,運行與大型商用機集群
hdfs是gfs的開源實現,提供了在廉價服務器集群中進行大規模分布式文件存儲的能力。
2、hbase:分布式的列存儲數據庫。hbase將hdfs作為底層存儲,同時支持mapreduce的批量計算和點查詢(隨機讀?。?/p>
hbase是一個建立在hdfs之上,面向列的nosql數據庫。它可用于快速讀寫大量數據,是一個高可靠、高并發讀寫、高性能、面向列、可伸縮和易構建的分布式存儲系統。hbase具有海量數據存儲、快速隨機訪問和大量寫操作等特點。
在kudu出現之前,hadoop生態環境的存儲主要依賴hdfs和hbase。在追求高吞吐、批處理的場景中,使用hdfs,在追求低延時且隨機讀取的場景中,使用hbase,而kudu正好能兼容這兩者。
3、批處理計算的基石:mapreduce
批處理計算主要解決大規模數據的批量處理問題,是日常數據分析中常見的一類數據處理需求。業界常用的大數據批處理框架有mapreduce\spark\tez\pig等。其中mapdeduce是比較有影響力和代表性的大數據批處理計算框架。它可以并發執行大規模數據處理任務,即用于大規模數據集(大于1tb)的并行計算。mapreduce的核心思想:將一個大數據集拆分成多個小數據集,然后在多臺機器上并行處理。
4、hive:分布式數據倉庫,管理hdfs中存儲的數據,并提供基于sql的查詢語言用于查詢數據