在數據分析的過程中,我們常常會遇到缺失值的情況。而Python作為數據分析常用的語言之一,自然也有著豐富的缺失值填補方法。下面是一些常見的缺失值填補方法。
# 導入必要的庫 import pandas as pd import numpy as np # 創建一個DataFrame df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [5, np.nan, np.nan], 'C': [1, 2, 3]}) # 1. 使用fillna方法填充缺失值 # 使用0填充所有缺失值 df.fillna(0) # 使用各列的平均值填充缺失值 df.fillna(df.mean()) # 使用指定的填充值填充缺失值 df.fillna({'A': 0, 'B': 1}) # 2. 使用interpolate方法插值填充缺失值 # 使用線性插值填充所有缺失值 df.interpolate() # 使用二次樣條插值填充所有缺失值 df.interpolate(method='spline', order=2) # 3. 使用dropna方法刪除缺失值 # 刪除含有缺失值的所有行 df.dropna() # 刪除所有缺失值 df.dropna(how='all') # 刪除至少含有2個缺失值的行 df.dropna(thresh=2)
以上是常用的一些缺失值填補方法,我們可以根據具體情況選擇不同的方法,以提高數據分析的準確性。