機器學習和數據挖掘的工具有很多,首先需要確定自己選用的編程語言,比如說Python是一種通用語言,具有高質量的機器學習和數據分析庫,非常適合快速原型設計;C++是用于CUDA并行計算的中級語言,可以開發在實時約束下直接與硬件交互的驅動程序和軟件,應用很廣泛;還有R語言,適合統計計算和圖形,是統計,可視化和數據分析的語言和環境,可以實現快速數據分析和可視化等等。
用于數據分析和可視化工具的有pandas,用于增強分析和建模的Python數據分析庫;matplotlib,用于高質量可視化的Python機器學習庫;jupyternotebook,用于交互式計算的免費Web應用程序,可實時創建代碼和共享文檔,開發和執行代碼;還有Tableau,用于數據科學和商業智能的數據可視化工具。
還有一些機器學習庫,比如Numpy,使用Python進行科學計算的擴展包;scikit-learn,一個開源的Python機器學習庫,集成了很多機器學習算法等等。
一些機器學習/深度學習框架工具,包括Tensorflow、Caffe、Pytorch、Keras、CNTK、MXNET、Theano在內的十幾種深度學習框架,最常用的、用的最多的是Tensorflow和Caffe。