Python 是一款非常流行的編程語言,它不僅可以用來開發(fā)應(yīng)用程序,還可以用來爬取互聯(lián)網(wǎng)上的數(shù)據(jù)。在這里,我們將會介紹如何使用 Python 爬取網(wǎng)站上的小說。
import requests from bs4 import BeautifulSoup novel_url = "http://www.xxx.com/novel" response = requests.get(novel_url) soup = BeautifulSoup(response.content, 'html.parser') titles = soup.find_all('h2', {'class': 'title'}) content = "" for title in titles: novel_chapter_url = title.find('a')['href'] chapter_response = requests.get(novel_chapter_url) chapter_soup = BeautifulSoup(chapter_response.content, 'html.parser') chapter_title = chapter_soup.find('h1', {'class': 'chapter-title'}).text.strip() chapter_content = chapter_soup.find('div', {'class': 'chapter-content'}).text.strip() content += chapter_title + "\n\n" + chapter_content + "\n\n" with open('novel.txt', 'w', encoding='utf-8') as file: file.write(content)
在上面的代碼中,我們首先使用 requests 庫向小說的網(wǎng)站發(fā)送請求,然后通過 BeautifulSoup 庫來解析返回的 HTML 頁面。使用 find_all() 方法,我們可以找到所有的小說章節(jié),然后遍歷它們。通過查找鏈接,我們可以進入到每一章的頁面。然后我們又一次發(fā)送請求,獲取每一章的標題和內(nèi)容。最后,我們將小說的每一章都保存在一個字符串中,通過文件操作寫入到磁盤上。
使用 Python 爬取小說不僅能夠節(jié)省我們的時間,還可以讓我們隨時隨地地閱讀自己喜歡的小說,讓我們的生活更加美好。希望本文對您有所幫助!