Python 爬蟲是一種網(wǎng)絡(luò)爬蟲,其可以自動獲取互聯(lián)網(wǎng)信息,并對其進(jìn)行處理、分析。在網(wǎng)絡(luò)爬蟲中,搜索是一個(gè)很重要的功能。本文將介紹如何使用 Python 編寫爬蟲搜索頁的功能。
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
def search(url, keyword):
try:
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
results = soup.find_all('a', href=True)
for result in results:
if keyword in result.text.lower():
print(result['href'])
return True
except requests.exceptions.RequestException as e:
print(e)
return False
search('https://www.baidu.com/', 'python')
以上是一個(gè)簡單的爬蟲搜索頁的示例代碼。其中,使用 requests 庫獲取網(wǎng)頁內(nèi)容,使用 BeautifulSoup 庫對網(wǎng)頁進(jìn)行解析。我們可以根據(jù)關(guān)鍵字在網(wǎng)頁中搜索相關(guān)內(nèi)容,并輸出鏈接。在調(diào)用 search 函數(shù)時(shí),需要傳入要搜索的 URL 地址和關(guān)鍵字。
希望本文能夠?qū)Υ蠹伊私?Python 爬蟲搜索頁功能有所幫助。使用 Python 編寫爬蟲程序時(shí),我們需要關(guān)注網(wǎng)絡(luò)安全、反爬蟲機(jī)制等問題,以確保程序的穩(wěn)健性和安全性。