Python 爬蟲是一種非常實(shí)用的技術(shù),可以用于獲取互聯(lián)網(wǎng)上的各種數(shù)據(jù)。下面我將介紹如何使用 Python 爬蟲實(shí)操。
# 導(dǎo)入必要的庫 import requests from bs4 import BeautifulSoup # 構(gòu)造請(qǐng)求,獲取網(wǎng)頁源代碼 url = 'https://www.baidu.com/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') # 找出所需信息 title = soup.find('title').text print('網(wǎng)站標(biāo)題:', title)
首先是導(dǎo)入必要的庫,requests 用于發(fā)送 HTTP 請(qǐng)求,BeautifulSoup 用于解析 HTML 代碼。
接著構(gòu)造請(qǐng)求,獲取網(wǎng)頁源代碼,需要傳入請(qǐng)求的 URL 和請(qǐng)求頭信息。這里的請(qǐng)求頭是模擬瀏覽器發(fā)送的請(qǐng)求頭。
然后使用 BeautifulSoup 解析 HTML 代碼,查找所需信息,這里是網(wǎng)站的標(biāo)題。
最后打印出網(wǎng)站標(biāo)題。