spark的亮點是?
1、 更高的性能。因為數據被加載到集群主機的分布式內存中。數據可以被快速的轉換迭代,并緩存用以后續的頻繁訪問需求。在數據全部加載到內存的情況下,Spark可以比hadoop快100倍,在內存不夠存放所有數據的情況下快Hadoop10倍。
2、通過建立在Java,Scala,Python,SQL(應對交互式查詢)的標準API以方便各行各業使用,同時還含有大量開箱即用的機器學習庫。
3、與現有Hadoop 1和2.x(YARN)生態兼容,因此機構可以無縫遷移。
4、方便下載和安裝。方便的shell(REPL: Read-Eval-Print-Loop)可以對API進行交互式的學習。
5、借助高等級的架構提高生產力,從而可以講精力放到計算上。