你覺得可以用python爬蟲做哪些有意思的事情?
當然是批量下載B站視頻啦,主要分為2步,首先爬取視頻url地址,然后根據url地址下載視頻,下面我簡單介紹一下實現過程,實驗環境win10+python3.6+pycharm5.0,主要內容如下:
這里為了更好的說明實驗過程,以爬取B站的TED演講為例,如下:
1.首先,爬取視頻的url地址信息,B站視頻的信息是動態加載的,存儲在一個json文件中,所以需要進行抓包分析,按F12調出開發者,F5刷新頁面,查看所有抓包信息,如下,可以看到json格式加載的視頻信息:
2.接著就是獲取上面的json文件,解析這個json文件,提取到我們所需要的視頻信息,這里主要是獲取到url地址信息,代碼如下,主要用到requests和json這2個模塊,其中requests用于獲取json文件,json用于解析json文件:
運行程序,效果如下,已經成功獲取到視頻信息:
3.最后就是根據視頻url地址批量下載視頻了,這里主要用到you-get這個模塊,安裝的話,直接在cmd窗口輸入命令“pip install you-get”就行,基本使用方式“you-get 視頻URL地址 -o 視頻存放目錄”,這里我們直接使用os.system執行這個命令就行,主要代碼如下,非常簡單:
運行程序,截圖如下,已經開始下載視頻:
接著打開對應的視頻存放目錄,就可以看到正在下載的文件,如下:
至此,我們就完成了利用python爬取并批量下載B站視頻。總的來說,整個過程非常簡單,就是步驟有些繁瑣,只要你有一定的python爬蟲基礎,熟悉一下上面代碼,多調試幾遍程序,很快就能掌握的,網上也有相關教程和資料,非常豐富詳細,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言。