Python爬鏈接爬蟲怎么寫?
python爬蟲我們都知道是可以在網上任意搜索的腳本程序,主要是幫助我們再也不用鼠標一條一條的從網頁上拷貝信息。省去我們的行為相當于下面的步驟:
在寫之前先看一下邏輯問題,希望每個小伙伴都養成這個好習慣,整理邏輯后在開始寫代碼:
了解了上面邏輯關系,下面我們以組件:unllib2為例
創建一個test01.py,輸入的代碼如下:
可以看到獲取一個url的信息代碼只需要4行代碼。執行的時候代碼如下:
結果如下:
我們在瀏覽頁上打開你爬的主頁,右鍵選擇“查看源代碼”,我們會發現,跟剛剛打印出來的是一樣的。這說明成功啦!成功幫我們把網頁首頁的全部代碼爬下來了。
以上全部步驟就是爬蟲的過程,出于認真負責的態度。解釋一下這4行代碼的作用:
這一步是把組件urllib2引入進來,給我們提供使用。
這里是調用組件urllib2庫中的urlopen方法,這個方法就是接受一個url地址,網址你可以隨便填寫你要爬的網址就可以了。然后請求后得到的回應封裝到一個response對象中。
這里是調用response對象的read()方法,把請求回應的內容以字符串的形式給html變量。
這里是將字符串打出來而已。
以上可知python代碼對于一個基本的url請求是非常簡單的。
下一篇投票網頁怎么制作