Python是一種全能的編程語(yǔ)言,不僅在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用,還可以用于網(wǎng)絡(luò)爬蟲(chóng)。在這篇文章中,我們將學(xué)習(xí)如何使用Python編寫(xiě)一個(gè)簡(jiǎn)單的程序來(lái)爬取圖書(shū)數(shù)據(jù)。
import requests from bs4 import BeautifulSoup url = "https://www.amazon.com/s?k=python+book&ref=nb_sb_noss_1" response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') books = soup.find_all('div', {'class': 's-result-item'}) for book in books: title = book.find('h2', {'class': 'a-size-mini'}).text.strip() author = book.find('span', {'class': 'a-size-base'}).text.strip() price = book.find('span', {'class': 'a-price-whole'}).text.strip() print(title, author, price)
以上代碼使用Requests庫(kù)和BeautifulSoup庫(kù),分別負(fù)責(zé)獲取HTML并解析HTML。首先,我們定義一個(gè)URL作為Amazon圖書(shū)查詢的搜索詞。接下來(lái),使用Requests庫(kù)下載HTML頁(yè)面,并用BeautifulSoup庫(kù)解析HTML內(nèi)容。此代碼使用CSS選擇器來(lái)發(fā)現(xiàn)具有“s-result-item”CSS類(lèi)的結(jié)果項(xiàng)目,并以循環(huán)方式處理每個(gè)書(shū)籍。在循環(huán)中,我們使用find()方法檢索書(shū)名、作者和價(jià)格,并將它們打印到控制臺(tái)上。
在執(zhí)行代碼后,您將看到控制臺(tái)輸出每本Python圖書(shū)的標(biāo)題,作者和價(jià)格。這是一種簡(jiǎn)單而有用的爬蟲(chóng)技術(shù),可用于從互聯(lián)網(wǎng)上獲取不同類(lèi)型的數(shù)據(jù)。