今天我們來一起學習如何使用Python爬取小說。Python作為最流行的開發語言之一,擁有強大的網絡請求庫Requests和解析庫BeautifulSoup,讓我們輕松實現爬取小說信息的目標。
首先,我們需要安裝Requests和BeautifulSoup庫。
pip install requests
pip install BeautifulSoup4
接下來,我們就可以寫代碼實現爬取小說詳情頁及章節內容。
import requests
from bs4 import BeautifulSoup
url = "https://www.book.com"
# 小說詳情頁的url
detail_url = url + "/novel/detail/123456"
# 章節內容的url
chapter_url = url + "/novel/chapter/123456/1"
# 獲取小說詳情頁
response = requests.get(detail_url)
# 解析小說詳情頁內容
soup = BeautifulSoup(response.content, "html.parser")
# 獲取小說標題
title = soup.find("h1", class_="title").text
# 獲取小說作者
author = soup.find("span", class_="author").text
# 獲取小說描述
description = soup.find("div", class_="description").p.text
# 獲取小說章節數
chapter_num = soup.find("span", class_="chapterNum").text.replace("章", "")
# 遍歷獲取每個章節內容
for i in range(1, int(chapter_num)+1):
chapter_response = requests.get(chapter_url.format(i))
chapter_soup = BeautifulSoup(chapter_response.content, "html.parser")
# 獲取章節標題
chapter_title = chapter_soup.find("h1").text
# 獲取章節內容
chapter_content = chapter_soup.find("div", class_="content").text
# 處理章節內容,去掉空格和換行
chapter_content = chapter_content.strip().replace(" ", "").replace("\n", "")
# 輸出章節信息
print("章節標題:", chapter_title)
print("章節內容:", chapter_content)
完成以上代碼后,我們就可以愉快地開始爬取小說啦!