欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

Python+requests爬取源碼,為什么有些網(wǎng)頁只獲取頭部一小部分?

老白2年前9瀏覽0評(píng)論

最有可能的原因就是網(wǎng)頁數(shù)據(jù)是動(dòng)態(tài)加載的,存儲(chǔ)在一個(gè)json文件中,直接獲取源碼是提取不到任何信息的,需要抓包分析才行,下面我簡(jiǎn)單介紹一下操作過程,以某某貸上的數(shù)據(jù)為例(動(dòng)態(tài)加載):

1.首先,打開原網(wǎng)頁,如下,這里假設(shè)我們要爬取的數(shù)據(jù)包含年利率、借款標(biāo)題、期限、金額和進(jìn)度5個(gè)字段:

2.接著右鍵打開網(wǎng)頁源碼,按Ctrl+F搜索其中關(guān)鍵字,如“10.20%”,可以看到,任何信息都匹配不到,說明數(shù)據(jù)是動(dòng)態(tài)加載的,而非直接嵌套在網(wǎng)頁源碼中:

3.按F12調(diào)出瀏覽器開發(fā)者工具,開始抓包分析,依次點(diǎn)擊“Network”->“XHR”,F(xiàn)5刷新頁面,可以看到,數(shù)據(jù)是動(dòng)態(tài)加載的,存儲(chǔ)在一個(gè)json文件中,而非html網(wǎng)頁源碼,只有解析這個(gè)json文件,才能提取出我們需要的數(shù)據(jù):

4.接著就是根據(jù)抓包結(jié)果解析json文件,已經(jīng)獲取到url地址,所以直接get請(qǐng)求即可,然后用python自帶的json包解析就行,測(cè)試代碼如下,非常簡(jiǎn)單,依次根據(jù)屬性提取字段信息即可:

5.最后點(diǎn)擊運(yùn)行程序,截圖如下,已經(jīng)成功提取到我們需要的數(shù)據(jù):

至此,我們就完成了網(wǎng)頁動(dòng)態(tài)數(shù)據(jù)的爬取。總的來說,整個(gè)過程非常簡(jiǎn)單,最主要的還是抓包分析,獲取到真實(shí)存儲(chǔ)數(shù)據(jù)的文件,然后再解析就行,只要你有一定的python基礎(chǔ),熟悉一下上面的過程,很快就能掌握的,當(dāng)然,如果數(shù)據(jù)或鏈接進(jìn)行了加密處理,這個(gè)就非常復(fù)雜了,需要自己好好琢磨一下,網(wǎng)上也有相關(guān)資料和教程,感興趣的話,可以搜一下,希望以上分享的內(nèi)容能對(duì)你有所幫助吧,也歡迎大家評(píng)論、留言進(jìn)行補(bǔ)充。