爬蟲腳本使用方法?
1、基本抓取網頁
get方法
post方法
2.使用代理服務器
這在某些情況下比較有用,
比如IP被封了,或者比如IP訪問的次數受到限制等等。
34.偽裝成瀏覽器訪問
某些網站反感爬蟲的到訪,于是對爬蟲一律拒絕請求。
這時候我們需要偽裝成瀏覽器,
這可以通過修改http包中的header來實現:
5、頁面解析
對于頁面解析最強大的當然是正則表達式,
這個對于不同網站不同的使用者都不一樣,就不用過多的說明。
爬蟲腳本使用方法?
1、基本抓取網頁
get方法
post方法
2.使用代理服務器
這在某些情況下比較有用,
比如IP被封了,或者比如IP訪問的次數受到限制等等。
34.偽裝成瀏覽器訪問
某些網站反感爬蟲的到訪,于是對爬蟲一律拒絕請求。
這時候我們需要偽裝成瀏覽器,
這可以通過修改http包中的header來實現:
5、頁面解析
對于頁面解析最強大的當然是正則表達式,
這個對于不同網站不同的使用者都不一樣,就不用過多的說明。