在hadoop和spark之間如何取舍?
一般來說,主流業界大數據技術Hadoop和Spark都會用到,在學習的時候,兩個體系都會學習,先學習Hadoop,在學Spark。
Hadoop:
Apache開源組織的一個分布式基礎框架,提供了一個分布式文件系統(HDFS)、分布式計算(MapReduce)及統一資源管理框架(YARN)的軟件架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。
Spark:
專為大規模數據處理而設計的快速通用的計算引擎。用來構建大型的、低延遲的數據分析應用程序。可用它來完成各種各樣的運算,包括 SQL 查詢、文本處理、機器學習等。
相關:Spark能代替Hadoop嗎?
https://www.toutiao.com/i6540156962573648397/