網(wǎng)站導(dǎo)航

Python+requests爬取源碼，為什么有些網(wǎng)頁只獲取頭部一小部分？

最有可能的原因就是網(wǎng)頁數(shù)據(jù)是動(dòng)態(tài)加載的，存儲(chǔ)在一個(gè)json文件中，直接獲取源碼是提取不到任何信息的，需要抓包分析才行，下面我簡(jiǎn)單介紹一下操作過程，以某某貸上的數(shù)據(jù)為例（動(dòng)態(tài)加載）：

1.首先，打開原網(wǎng)頁，如下，這里假設(shè)我們要爬取的數(shù)據(jù)包含年利率、借款標(biāo)題、期限、金額和進(jìn)度5個(gè)字段：

2.接著右鍵打開網(wǎng)頁源碼，按Ctrl+F搜索其中關(guān)鍵字，如“10.20%”，可以看到，任何信息都匹配不到，說明數(shù)據(jù)是動(dòng)態(tài)加載的，而非直接嵌套在網(wǎng)頁源碼中：

3.按F12調(diào)出瀏覽器開發(fā)者工具，開始抓包分析，依次點(diǎn)擊“Network”->“XHR”，F(xiàn)5刷新頁面，可以看到，數(shù)據(jù)是動(dòng)態(tài)加載的，存儲(chǔ)在一個(gè)json文件中，而非html網(wǎng)頁源碼，只有解析這個(gè)json文件，才能提取出我們需要的數(shù)據(jù)：

4.接著就是根據(jù)抓包結(jié)果解析json文件，已經(jīng)獲取到url地址，所以直接get請(qǐng)求即可，然后用python自帶的json包解析就行，測(cè)試代碼如下，非常簡(jiǎn)單，依次根據(jù)屬性提取字段信息即可：

5.最后點(diǎn)擊運(yùn)行程序，截圖如下，已經(jīng)成功提取到我們需要的數(shù)據(jù)：

至此，我們就完成了網(wǎng)頁動(dòng)態(tài)數(shù)據(jù)的爬取。總的來說，整個(gè)過程非常簡(jiǎn)單，最主要的還是抓包分析，獲取到真實(shí)存儲(chǔ)數(shù)據(jù)的文件，然后再解析就行，只要你有一定的python基礎(chǔ)，熟悉一下上面的過程，很快就能掌握的，當(dāng)然，如果數(shù)據(jù)或鏈接進(jìn)行了加密處理，這個(gè)就非常復(fù)雜了，需要自己好好琢磨一下，網(wǎng)上也有相關(guān)資料和教程，感興趣的話，可以搜一下，希望以上分享的內(nèi)容能對(duì)你有所幫助吧，也歡迎大家評(píng)論、留言進(jìn)行補(bǔ)充。

上一篇ps怎么把jpg變成網(wǎng)頁版的？

下一篇PS都用什么軟件或者最常用的軟件是什么？

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

Python+requests爬取源碼，為什么有些網(wǎng)頁只獲取頭部一小部分？

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

Python+requests爬取源碼，為什么有些網(wǎng)頁只獲取頭部一小部分？

相關(guān)文章