Python特征預處理技術可用于將原始數據轉化為可用于機器學習算法的數據格式,并進行特征選擇和特征提取。這里介紹幾種常見的預處理技術,可以在Python中方便地實現。
# 導入所需模塊 import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.feature_selection import SelectKBest, mutual_info_classif from sklearn.decomposition import PCA # 載入數據 data = pd.read_csv('data.csv') X = data.drop(columns=['label']) y = data['label'] # 標準化 scaler = StandardScaler() X_std = scaler.fit_transform(X) # 特征選擇 selector = SelectKBest(mutual_info_classif, k=10) X_sel = selector.fit_transform(X_std, y) # 特征提取 pca = PCA(n_components=5) X_pca = pca.fit_transform(X_sel) # 打印處理后的數據形狀 print(X_pca.shape)
以上代碼展示了Python中的三種特征預處理技術。首先進行數據標準化,使得不同特征的數值具有相同的重要性。接著進行特征選擇,只選擇最具有預測能力的特征。在這里使用互信息作為評價指標,篩選出前10個特征。然后進行特征提取,利用主成分分析將高維度數據降維,提取出最重要的五個特征。最后輸出處理后的數據形狀。
上一篇python 的各種庫
下一篇vue中怎樣注釋