箱型圖是一種常用的數據可視化工具,用于展示一個數據集的統計特征,例如中位數、四分位數、異常值等。Python是一種流行的編程語言,它在數據分析和可視化方面很有優勢。在Python中,我們可以使用Matplotlib、Seaborn等庫來繪制箱型圖。
# 導入Seaborn庫 import seaborn as sns # 讀取數據集 tips = sns.load_dataset("tips") # 繪制箱型圖 sns.boxplot(x = "day", y = "total_bill", data = tips)
代碼中,我們導入了Seaborn庫,它提供了一些高級繪圖功能,例如箱型圖、散點圖等。然后我們讀取了一個名為“tips”的數據集,它記錄了顧客在不同天和時間、使用的支付方式、是否吸煙等因素下消費的情況。最后,我們使用Seaborn中的boxplot函數繪制了一個箱型圖,其中x參數表示按照哪個因素分組,而y參數表示展示哪個變量的分布。
通過箱型圖,我們可以得到以下信息:
- 中線表示數據的中位數,即將數據從小到大排列后,位于中間的值。
- 箱體表示數據的四分位數,即將數據從小到大排列后,分為四個等分,每個等分包含25%的數據。
- 須線表示數據的范圍,其中小圓點表示異常值,即距離四分位數超過1.5倍的標準差的值。
通過觀察箱型圖,我們可以看到周六和周日餐廳的賬單比其他天要高,而周五的賬單則比其他工作日要低。此外,我們還可以看到,在不同的天,賬單的分布情況有所不同。例如周日的賬單分布更加分散,而周四的賬單則集中在較低范圍內。