五分鐘看懂大數據技術

服務器

劉柏宏2年前14瀏覽0評論

五分鐘看懂大數據技術？

大數據技術涉及：數據的采集、預處理、和分布式存儲、以及數據倉庫、機器學習、并行計算和可視化等方面。

對于大數據技術，應用廣泛的是以hadoop和spark為核心的生態系統。hadoop提供一個穩定的共享存儲和分析系統，存儲由hdfs實現，分析由mapreduce實現，

1、hdfs：Hadoop分布式文件系統，運行與大型商用機集群

hdfs是gfs的開源實現，提供了在廉價服務器集群中進行大規模分布式文件存儲的能力。

2、hbase：分布式的列存儲數據庫。hbase將hdfs作為底層存儲，同時支持mapreduce的批量計算和點查詢（隨機讀?。?/p>

hbase是一個建立在hdfs之上，面向列的nosql數據庫。它可用于快速讀寫大量數據，是一個高可靠、高并發讀寫、高性能、面向列、可伸縮和易構建的分布式存儲系統。hbase具有海量數據存儲、快速隨機訪問和大量寫操作等特點。

在kudu出現之前，hadoop生態環境的存儲主要依賴hdfs和hbase。在追求高吞吐、批處理的場景中，使用hdfs,在追求低延時且隨機讀取的場景中，使用hbase,而kudu正好能兼容這兩者。

3、批處理計算的基石：mapreduce

批處理計算主要解決大規模數據的批量處理問題，是日常數據分析中常見的一類數據處理需求。業界常用的大數據批處理框架有mapreduce\spark\tez\pig等。其中mapdeduce是比較有影響力和代表性的大數據批處理計算框架。它可以并發執行大規模數據處理任務，即用于大規模數據集（大于1tb）的并行計算。mapreduce的核心思想：將一個大數據集拆分成多個小數據集，然后在多臺機器上并行處理。

4、hive:分布式數據倉庫，管理hdfs中存儲的數據，并提供基于sql的查詢語言用于查詢數據

上一篇rd1服務器是什么

下一篇從零開始，如何學習數據挖掘？

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網站導航

網站導航

網站分類

五分鐘看懂大數據技術

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網站導航

網站導航

網站分類

五分鐘看懂大數據技術

相關文章