很高興能回答你的問題:
一。爬鏈接爬蟲可以使用正則。
正則表達式是容易上手的,首先會使用re。
需要注意的是,在網上把header設置好,最好弄一個列表,在使用random.choice()來隨機抽取。IP也是一樣操作。
二。爬鏈接爬蟲可以使用Beautifulsoup。
層層往里爬,就像脫衣服一下,先外套在到里面一層。需要注意的是:同一層有一個還是多個并排的。如果一個沒問題,如果多個,后面要加【0】,表示第一個,【1】,表示第二個。等
三。就是使用scrapy框架。這個使用高端大氣。上檔次。而且代碼書寫比較少。爬取內容比較多。可以很輕松的實現多頁爬取。
以上是介紹的三種爬蟲方式,第一種比較簡單,實現簡單爬取。如果爬取了鏈接,需要實現下載的話,可以借用os
綜上所述:爬蟲需要了解python基本爬取庫,還需要對爬取網頁結構有基本理解
下一篇jep是什么英語縮寫