在機器學習中,我們通常需要將我們的數據集劃分為訓練集、驗證集和測試集,以便我們可以測試我們的模型在不同數據集上的表現。而 Python 中有很多工具可以幫助我們完成這一任務。
import numpy as np from sklearn.model_selection import train_test_split # 首先我們需要準備我們的數據集 X = np.arange(20).reshape((10,2)) y = np.arange(10) # 將數據集拆分為訓練集和測試集,我們可以設置測試集占總數據集的比例 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
以上代碼使用了 numpy 庫中的 arange 方法生成了一個二維數組 X 和一個一維數組 y,然后使用了 sklearn 庫中的 train_test_split 方法將 X 和 y 拆分成了 X_train、X_test、y_train 和 y_test。我們可以在使用 train_test_split 時設置 test_size 參數來指定測試集所占的比例。
除了拆分訓練集和測試集之外,我們還可以將訓練集拆分為訓練集和驗證集。
# 將訓練集拆分為訓練集和驗證集,我們可以設置驗證集占訓練集的比例 X_train_new, X_val, y_train_new, y_val = train_test_split(X_train, y_train, test_size=0.25)
以上代碼將 X_train 和 y_train 拆分成了 X_train_new、X_val、y_train_new 和 y_val,其中 X_train_new 和 y_train_new 組成了新的訓練集,而 X_val 和 y_val 組成了新的驗證集。
通過拆分數據集,我們可以更好地評估模型在不同數據集上的表現,進而優化模型的表現。
上一篇c json用哪個好
下一篇vue cli 參數