欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

如何用python爬取網(wǎng)頁(yè)的內(nèi)容?

用python爬取網(wǎng)頁(yè)信息的話,需要學(xué)習(xí)幾個(gè)模塊,urllib,urllib2,urllib3,requests,httplib等等模塊,還要學(xué)習(xí)re模塊(也就是正則表達(dá)式)。根據(jù)不同的場(chǎng)景使用不同的模塊來(lái)高效快速的解決問題。

最開始我建議你還是從最簡(jiǎn)單的urllib模塊學(xué)起,比如爬新浪首頁(yè)(聲明:本代碼只做學(xué)術(shù)研究,絕無(wú)攻擊用意):

這樣就把新浪首頁(yè)的源代碼爬取到了,這是整個(gè)網(wǎng)頁(yè)信息,如果你要提取你覺得有用的信息得學(xué)會(huì)使用字符串方法或者正則表達(dá)式了。

平時(shí)多看看網(wǎng)上的文章和教程,很快就能學(xué)會(huì)的。

補(bǔ)充一點(diǎn):以上使用的環(huán)境是python2,在python3中,已經(jīng)把urllib,urllib2,urllib3整合為一個(gè)包,而不再有這幾個(gè)單詞為名字的模塊。