Python中的等寬分箱法在統計學中是一個常用的方法,可以進行數據分組,統計離散值和連續值的分布情況。
import numpy as np import pandas as pd # 創建一個示例數據 data = pd.Series([1,2,3,4,5,6,7,8,9,10],index=['a','b','c','d','e','f','g','h','i','j']) print('原始數據:\n',data) # 按照等寬分箱法進行分組 bins = np.linspace(data.min(), data.max(), 4) groups = pd.cut(data, bins) print('分組結果:\n',groups)
在上述代碼中,我們創建了一個示例數據,并利用等寬分箱法將數據分成了3組。其中np.linspace函數用于創建等差數列,data.min()和data.max()分別計算數據的最小值和最大值。
利用等寬分箱法可以更加直觀地展示數據的分布情況,可以通過觀察每組的頻數、頻率和累積頻率來了解數據的整體情況。