還有哪些支持python的分布式計算系統(tǒng)框架?
hadoop支持python,我理解的是任務被yarn下發(fā)到工作節(jié)點,通過shell方式被調用。這種方式比原生的MR還慢,所以沒大有人用吧。
spark應該是對python比較友好的框架了。要說缺點,畢竟是scala或java風格的api,用起來不夠python。再就是用過pandas和numpy,感覺spark的api還是比較基礎。
除此之外,python推薦你了解一下dask,celery這兩個框架。dask是基于numpy,pandas封裝的,兼容大部分np,pd的接口。且支持分布式,有可視化界面。整體來說是不錯的選擇。
celery是一個分布式任務調度框架,本身設計并不是專門為了etl,所以性能會比dask差一些。但個人感覺作為生產系統(tǒng)使用,celery穩(wěn)定性更高一些。