在當前海量數據的場景下,在做數據分析的過程中經常會遇到數據過大無法裝入內存的情況,這種情況提供一些簡單的處理思路:
(1)壓縮數據量。提前對數據進行預處理,將每條樣本使用編碼進行壓縮存儲(結合hash還可進一步減少內存占用),隨后的分析過程中直接讀取壓縮文件再逐個還原并處理即可,這樣可以使得讀入內存的數據量變小,減少內存占用。
(2)采用大數據計算框架。如果數據量太大(百G或者T級別),壓縮可能已經不是較好的解決方案了(處理速度過慢),這時候可以采取hadoop等框架,利用map-reduce的計算模型調用大量計算能力進行處理(如果你沒有大量計算力且數據非涉密,可以考慮各大云服務廠商提供的計算能力),現在的計算框架已經支持了多種語言來實現mr計算模型,使用起來也是十分的方便。
如果覺得有所啟發就請點個贊吧