在數據科學和機器學習領域,特征因子化指的是將分類變量轉化成數值,以便于模型使用。在Python中,可以使用Pandas庫的get_dummies()函數來實現特征因子化。
import pandas as pd #創建樣本數據 data = {'color': ['紅', '綠', '藍', '紅', '綠', '藍', '紅', '綠', '藍'], 'size': ['S', 'M', 'L', 'M', 'S', 'S', 'L', 'M', 'L'], 'price': [20, 30, 40, 50, 60, 70, 80, 90, 100]} df = pd.DataFrame(data) #特征因子化 df_color = pd.get_dummies(df['color'], prefix='color') df_size = pd.get_dummies(df['size'], prefix='size') df_new = pd.concat([df[['price']], df_color, df_size], axis=1) print(df_new)
在上述代碼中,首先創建了一個包含顏色、尺寸和價格的樣本數據。接著,使用get_dummies()函數將顏色和尺寸列中的分類變量轉化成數值,生成兩張新表格df_color和df_size。同時,使用concat()函數將原始數據集df、df_color和df_size合并成一張新表格df_new。
特征因子化可以幫助模型更好地理解和利用分類變量。例如,在上述代碼中,將顏色和尺寸因子化后,可以更好地反映它們對價格的影響。