Python 作為一種流行的編程語言,有著強大的數據處理和網絡爬取能力。可以將這些能力應用到爬取各種網站的數據中,本文將介紹如何使用 Python 爬取題庫的方法。
import requests # 網絡請求庫 from lxml import etree # html 解析庫 url = 'http://example.com/questions' # 題庫網站的 URL response = requests.get(url) # 發送 get 請求獲取頁面 # 使用 lxml 庫解析 HTML html = etree.HTML(response.text) questions = html.xpath('//div[@class="question"]') # 根據 HTML 結構獲取題目元素 for question in questions: title = question.xpath('.//h2/text()') # 獲取題目標題 options = question.xpath('.//ul/li/label/text()') # 獲取選項 answer = question.xpath('.//input[@type="radio"]/@value') # 獲取正確答案 # 打印結果 print('題目:', title) print('選項:', options) print('答案:', answer)
上述代碼中,我們首先使用 requests 庫發送了一個 GET 請求,獲取到了題庫網站的 HTML 頁面。然后,我們使用 lxml 庫對 HTML 進行解析,根據 HTML 結構獲取題目元素,并從中提取出題目標題、選項和正確答案等信息。
針對不同的題庫網站,可能需要針對其 HTML 結構進行一些調整。但是,如此簡單的爬蟲代碼可以輕松地應對大多數常見的題庫網站,實現題目批量爬取的功能。
上一篇python 目錄多少層
下一篇python 爬審查元素