python如何爬取B站評論信息?
這里簡單介紹一下吧,B站的評論信息是動態加載的,存儲在一個json文件中,只要抓包分析,提取到這個json文件,就能爬取到我們需要的評論信息,下面我簡單介紹一下實現過程,實驗環境win10+python3.6+pycharm5.0,主要內容如下:
這里為了更好的說明問題,以抓取B站https://www.bilibili.com/video/av1238716的評論信息為例(其他頁面評論信息也行),如下:
1.首先,按F12調出開發者工具,依次點擊“網絡”->“所有”,刷新頁面,如下,所有的抓包信息便會顯示出來:
仔細分析,我們就會發現reply這個文件比較大,而且還是json的,很可能就是評論信息,點擊進去,果然,就是我們需要爬取的評論信息,如下:
2.接著,針對上面的json文件,我們就可以編寫對應的代碼來進行解析了,主要用到requests和json這2個包,requests主要用于根據url請求json文件,json主要用于解析json文件,提取出我們需要的信息,主要代碼如下:
程序運行截圖如下,已經成功爬取到評論信息:
3.最后,就是保存我們爬取的評論信息了,代碼如下,很簡單,主要用到xlwt這個包,專門用于寫入數據到excel中:
程序運行截圖如下,已經成功保存信息到excel中:
至此,我們就完成了利用python來爬取B站評論信息。總的來說,這個過程很簡單,就是抓包分析獲取到json,然后解析json提取出我們需要的數據就行,只要你有一定的python基礎,會簡單的抓包分析,熟悉一下相關示例和代碼,很快就能掌握的,當然,你也可以使用scrapy框架來爬取數據,都可以,網上也有相關教程和資料,感興趣的可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言。