欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

機器學習時數據量太大,不能一次性裝進內存該怎么辦?

錢斌斌2年前11瀏覽0評論

在當前海量數據的場景下,在做數據分析的過程中經常會遇到數據過大無法裝入內存的情況,這種情況提供一些簡單的處理思路:

(1)壓縮數據量。提前對數據進行預處理,將每條樣本使用編碼進行壓縮存儲(結合hash還可進一步減少內存占用),隨后的分析過程中直接讀取壓縮文件再逐個還原并處理即可,這樣可以使得讀入內存的數據量變小,減少內存占用。

(2)采用大數據計算框架。如果數據量太大(百G或者T級別),壓縮可能已經不是較好的解決方案了(處理速度過慢),這時候可以采取hadoop等框架,利用map-reduce的計算模型調用大量計算能力進行處理(如果你沒有大量計算力且數據非涉密,可以考慮各大云服務廠商提供的計算能力),現在的計算框架已經支持了多種語言來實現mr計算模型,使用起來也是十分的方便。

如果覺得有所啟發就請點個贊吧