Python在機器學習和深度學習中廣泛使用,其中訓練集分割是非常常見的步驟之一。讓我們來深入了解如何使用Python分割訓練集。
# 導入庫 import numpy as np from sklearn.model_selection import train_test_split # 生成數據集 X = np.arange(24).reshape((12,2)) y = np.random.randint(2, size=12) # 分割訓練集和測試集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 輸出結果 print("訓練集樣本數: ", X_train.shape[0]) print("測試集樣本數: ", X_test.shape[0])
在這個示例中,我們首先導入了必要的庫。然后我們使用np.arange()
函數生成一個帶有12個樣本和2個特征的數據集,并使用np.random.randint()
函數生成12個樣本的目標變量。接下來,我們使用train_test_split()
函數來分割訓練集和測試集,其中我們指定測試集比例為30%,隨機種子為42。最后,我們輸出分割后的訓練集和測試集的樣本數。
訓練集分割是機器學習和深度學習模型構建過程中的重要步驟,因為它可以幫助我們評估模型在新數據上的表現。此外,合理選擇訓練集和測試集可以讓我們更好地泛化模型,從而獲得更好的性能。