Python 爬蟲是一種自動化采集網(wǎng)上信息的技術(shù),越來越受到廣大開發(fā)者的關(guān)注。Python 爬蟲文件通常包括以下幾個部分:
import requests
# 發(fā)起請求獲取網(wǎng)頁內(nèi)容
def get_html(url):
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url=url, headers=headers)
html = response.text
return html
# 解析網(wǎng)頁內(nèi)容獲取所需信息
def parse_html(html):
# TODO
# 主函數(shù)
if __name__ == '__main__':
url = 'https://www.example.com'
html = get_html(url)
parse_html(html)
在上述代碼中,requests
模塊的作用是發(fā)起 HTTP 請求。之后我們定義了一個函數(shù)get_html
,該函數(shù)接受一個 URL 參數(shù),使用requests.get
方法發(fā)起請求以獲取傳入 URL 的網(wǎng)頁內(nèi)容。
接著我們定義了另一個函數(shù)parse_html
,用于解析網(wǎng)頁內(nèi)容并獲取所需信息。其實現(xiàn)方式多種多樣,可以使用正則表達式、BeautifulSoup 或其他方法。我們在該函數(shù)中添加了TODO
作為占位符,等待我們后續(xù)實現(xiàn)。
最后我們定義了一個主函數(shù),在該函數(shù)中我們使用get_html
函數(shù)獲取網(wǎng)頁內(nèi)容,使用parse_html
函數(shù)解析所獲取的內(nèi)容。