機器學習時數據量太大，不能一次性裝進內存該怎么辦？

在當前海量數據的場景下，在做數據分析的過程中經常會遇到數據過大無法裝入內存的情況，這種情況提供一些簡單的處理思路：

（1）壓縮數據量。提前對數據進行預處理，將每條樣本使用編碼進行壓縮存儲（結合hash還可進一步減少內存占用），隨后的分析過程中直接讀取壓縮文件再逐個還原并處理即可，這樣可以使得讀入內存的數據量變小，減少內存占用。

（2）采用大數據計算框架。如果數據量太大（百G或者T級別），壓縮可能已經不是較好的解決方案了（處理速度過慢），這時候可以采取hadoop等框架，利用map-reduce的計算模型調用大量計算能力進行處理（如果你沒有大量計算力且數據非涉密，可以考慮各大云服務廠商提供的計算能力），現在的計算框架已經支持了多種語言來實現mr計算模型，使用起來也是十分的方便。