欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

mysql分組函數查詢,怎么學習python數據分析

謝彥文2年前21瀏覽0評論
mysql分組函數查詢,怎么學習python數據分析?

利用Python進行數據分析,既可以做常規的統計分析,也可以利用機器學習算法進行數據挖掘。

下面分享一個Python數據分析案例:用Python爬取騰訊課堂“前端開發”品類下的課程數據,然后做數據分析,并進行可視化。

整個數據分析過程,主要做了以下3件事情:

數據采集:利用requests實現Python爬蟲數據清洗:正則表達式、數據類型轉換。數據分析:分組統計、數據可視化。在騰訊課堂首頁,選擇“前端開發”品類,打開頁面如下所示。1.數據采集:利用requests實現Python爬蟲

利用Python爬蟲爬取騰訊課堂“前端開發”品類下33頁的課程數據。

以上代碼執行完畢后,查看數據。

從上面看到,共采集到792條記錄。

2.數據清洗:正則表達式、數據類型轉換

針對上述采集到的數據,需要做以下事情:

購買人數:只關心其中的數字,需要把其中的非數字符號去除。

價格:只關心其中的數字,需要把免費替換為0,有價格的里面的人民幣符號¥去除。

清洗思路:利用正則表達式替換。

有了思路后,下面通過for循環處理所有數據。

以上只是把無關的符號去除了,但是數據類型還有問題,通過type查看可以發現,購買人數及價格雖然是數字,但其實是字符串類型,所以還需要通過astype進行類型轉換。

經過以上處理,可以看到購買人數、價格都被轉換成了數值型。

3.數據分析:分組統計、可視化

首先通過describe函數對數據進行描述性統計分析。

說明:加上include參數可以讓所有字段都顯示,包括非數值型字段。

對該品類(前端開發,以下簡稱該品類)的描述性統計分析可以看出:

總共有10個教育機構提供了792門課程。報名人數最多的一門課程有6156人報名,最貴的一門課程價格為15698元。該品類下的課程的平均報名人數為1451人,平均價格為681元。

以下按照“機構”進行分組統計。

還可以通過matplotlib進行數據可視化。

以下展示的是報名人數前10的教育機構。

以下通過餅圖展示每個機構的課程數。

還可以通過折線圖展示每個機構的報名人數。

回答完畢!