Python 爬蟲是一種自動化程序,可以在網上抓取各種信息。這里將介紹如何使用 Python 編寫一個簡單的網絡爬蟲程序,通過爬取學生新聞來演示。
import requests
from bs4 import BeautifulSoup
# 請求 URL
url = 'http://www.stu.edu.cn/index/xxyw.htm'
# 發送請求
response = requests.get(url)
# 使用BeautifulSoup解析
soup = BeautifulSoup(response.text, 'html.parser')
# 查找文章標題和鏈接
title_list = soup.find_all('a', class_='xx-top-tit')
# 輸出標題和鏈接
for title in title_list:
print(title.text.strip())
print(title['href'])
代碼中使用了 requests 庫來發送請求,使用了 BeautifulSoup 庫來解析 HTML。首先需要獲取學生新聞頁面的 URL,再發送請求,獲取頁面內容。使用 BeautifulSoup 解析頁面并查找文章標題和鏈接,最后輸出即可。
上一篇python 相似矩陣
下一篇c 怎么用json傳值