Python中的隨機欠采樣(Random Undersampling)是一種減少數據不平衡性的技術。在機器學習任務中,不同類別的數據可能存在數量巨大的差異,這會影響模型的性能。隨機欠采樣可以通過減少多數類別的樣本來平衡訓練數據集。
from imblearn.under_sampling import RandomUnderSampler
import numpy as np
# 假設有一個不平衡的二元分類問題
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13, 14], [15, 16]])
y = np.array([0, 1, 1, 0, 0, 0, 1, 0])
# 實例化隨機欠采樣器
rus = RandomUnderSampler()
# 對X和y進行隨機欠采樣
X_resampled, y_resampled = rus.fit_resample(X, y)
# 查看新的X和y
print("原始類別數量:", y.shape)
print("經過欠采樣后的類別數量:", y_resampled.shape)
# 原始類別數量: (8,)
# 經過欠采樣后的類別數量: (4,)
在上面的代碼中,我們使用Imbalanced-Learn(imblearn)庫中的RandomUnderSampler()函數來創建實例。然后,我們將函數應用于不平衡的二元分類問題,并對X和y進行了隨機欠采樣。最后,我們打印了原始類別數量和經過欠采樣后的類別數量,可以看到經過隨機欠采樣后,樣本數量有明顯的減少。