欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

五分鐘看懂大數據技術

劉柏宏2年前14瀏覽0評論

五分鐘看懂大數據技術?

大數據技術涉及:數據的采集、預處理、和分布式存儲、以及數據倉庫、機器學習、并行計算和可視化等方面。

對于大數據技術,應用廣泛的是以hadoop和spark為核心的生態系統。hadoop提供一個穩定的共享存儲和分析系統,存儲由hdfs實現,分析由mapreduce實現,

1、hdfs:Hadoop分布式文件系統,運行與大型商用機集群

hdfs是gfs的開源實現,提供了在廉價服務器集群中進行大規模分布式文件存儲的能力。

2、hbase:分布式的列存儲數據庫。hbase將hdfs作為底層存儲,同時支持mapreduce的批量計算和點查詢(隨機讀?。?/p>

hbase是一個建立在hdfs之上,面向列的nosql數據庫。它可用于快速讀寫大量數據,是一個高可靠、高并發讀寫、高性能、面向列、可伸縮和易構建的分布式存儲系統。hbase具有海量數據存儲、快速隨機訪問和大量寫操作等特點。

在kudu出現之前,hadoop生態環境的存儲主要依賴hdfs和hbase。在追求高吞吐、批處理的場景中,使用hdfs,在追求低延時且隨機讀取的場景中,使用hbase,而kudu正好能兼容這兩者。

3、批處理計算的基石:mapreduce

批處理計算主要解決大規模數據的批量處理問題,是日常數據分析中常見的一類數據處理需求。業界常用的大數據批處理框架有mapreduce\spark\tez\pig等。其中mapdeduce是比較有影響力和代表性的大數據批處理計算框架。它可以并發執行大規模數據處理任務,即用于大規模數據集(大于1tb)的并行計算。mapreduce的核心思想:將一個大數據集拆分成多個小數據集,然后在多臺機器上并行處理。

4、hive:分布式數據倉庫,管理hdfs中存儲的數據,并提供基于sql的查詢語言用于查詢數據