數(shù)據(jù)缺失值是指數(shù)據(jù)集中部分?jǐn)?shù)據(jù)缺失的情況,這在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)中十分常見。Python中有很多處理數(shù)據(jù)缺失值的工具,以下介紹幾種常用的方法。
# 導(dǎo)入數(shù)據(jù)處理庫 import pandas as pd # 創(chuàng)建一個包含缺失值的數(shù)據(jù)集 data = {'name': ['Alice', 'Bob', 'Cathy', 'David', 'Eva'], 'age': [24, 32, None, 45, 27], 'gender': ['Female', 'Male', None, 'Male', 'Female']} df = pd.DataFrame(data) # 判斷缺失值 print(df.isnull()) # 去除缺失值 df.dropna(inplace=True) print(df) # 填充缺失值 df.fillna(value={'age': df['age'].mean(), 'gender': 'Unknown'}, inplace=True) print(df)
以上代碼中,首先通過創(chuàng)建一個包含缺失值的數(shù)據(jù)集,然后使用isnull()函數(shù)判斷數(shù)據(jù)集中是否存在缺失值,返回結(jié)果為True或False。接著,通過dropna()函數(shù)將缺失值所在的行刪除。最后,通過fillna()函數(shù)將缺失值填充為均值或固定值。
除了以上方法外,還有一些其他方法可以處理缺失值,例如使用插值、回歸預(yù)測等機(jī)器學(xué)習(xí)方法,具體選擇哪種方法需要根據(jù)具體情況進(jìn)行分析和處理。