如何選擇大數據的編程語言?
選擇大數據項目編程語言的最重要因素是目究竟項目偏向于什么。如果是更加側重于分析數據,構建分析并測試機器學習模型,那么更偏向于數據科學語言。如果是希望構建大數據或物聯網(IoT)應用程序,那么選擇又需要考慮其他因素.
在數據科學探索和開發階段,今天最流行的語言無疑是Python。Python流行的一個重要原因是可用于幫助數據科學家探索大數據集的大量工具和庫。另外Python本身就是一門通用語言,實用型強.
另一種流行的數據科學語言是R,長期以來一直是數學家,統計學家和科學家的最愛。MATLAB也廣泛用于大數據的探索和發現階段。另外如果不了解SQL,也無法在數據科學方面走得太遠,這仍然是一種非常有用的語言。
在開發生產分析和物聯網應用程序時,通常會選擇不同的語言集。雖然可能在項目的實驗階段選擇Python或R,但實施通常會重寫應用程序并使用完全不同的語言重新實現機器學習算法。
Java仍然是一個非常受歡迎的選擇,因為世界上有大量的Java開發人員,以及一些流行的框架,如Apache Hadoop,是用Java開發的。Scala在Java虛擬機(JVM)中運行,也廣泛用于數據科學; Apache Spark是用Scala編寫的,Apache Flink是用Java和Scala編寫的。但是,對于某些生產應用程序,開發人員仍然傾向于低級語言。當速度和延遲很重要時,許多開發人員轉向使用C和C ++來獲得他們想要的東西。
使用C / C ++這樣的低級語言可以比使用自動內存管理的語言更嚴格地控制應用程序的內存和性能.一個編寫良好的C ++程序,對內存訪問模式和機器的體系結構有深入的了解,可以比依賴于垃圾收集的Java程序快幾倍。出于這些原因,許多具有巨大可伸縮性和性能要求的企業開發人員傾向于在其服務器應用程序中使用C / C ++而不是Java。
總之,究竟選擇何種大數據相關編程語言,還是要根據具體目標選擇.對于性能有著苛刻的要求,就偏向于低級語言.如果偏向于數據分析和探索Python和R比較適合。Java以其強大的生態和不錯的性能,也是一個可能的選擇.