在Python中,抓取多頁的文章是一項非常常見的任務。為了讓代碼更加易讀易懂,我們通常會使用BeautifulSoup庫和Requests庫來完成爬取任務。
下面是一個Python代碼示例,用于抓取知乎上的多頁文章,并將每個段落用p標簽包裹起來,代碼段則用pre標簽包裹起來。
```
import requests
from bs4 import BeautifulSoup
# 要抓取的文章URL
url = "https://www.zhihu.com/topic/19575400/top-answers"
# 使用requests庫獲取網頁內容
response = requests.get(url)
# 使用BeautifulSoup庫解析網頁內容
soup = BeautifulSoup(response.text, "html.parser")
# 獲取所有文章段落
paragraphs = soup.find_all("div", class_="RichContent-inner")
# 將每個段落加上p標簽
for paragraph in paragraphs:
print("
") print(paragraph.text) print("
") # 將代碼段加上pre標簽 codes = soup.find_all("pre") for code in codes: print("") print(code.text) print("") ``` 以上代碼將會輸出抓取到的文章段落和代碼段,其中每個段落都被p標簽包裹,代碼段則被pre標簽包裹,便于在網頁中進行格式化輸出。如需將結果保存至文件中,可以將print()改為寫入文件的代碼。
上一篇mysql升級新版本性能
下一篇mysql升級數據表