爬取網(wǎng)站上的表格數(shù)據(jù)是常見的需求,Python 爬蟲可以輕松實(shí)現(xiàn)這個(gè)操作。下面我們來一步步介紹如何使用 Python 爬蟲抓取網(wǎng)站上的表格數(shù)據(jù)。
#首先,需要擁有如下的庫 import requests from bs4 import BeautifulSoup #通過 requests 庫獲取需要爬取的網(wǎng)頁 url = 'https://www.example.com/' response = requests.get(url) #將獲取到的網(wǎng)頁用 BeautifulSoup 進(jìn)行解析 soup = BeautifulSoup(response.content, 'html.parser') #找到需要抓取的表格 table = soup.find('table', {'class': 'table'}) #遍歷表格,將數(shù)據(jù)儲(chǔ)存在列表中 data = [] for tr in table.find_all('tr'): row = [] for td in tr.find_all('td'): row.append(td.text.strip()) if row: data.append(row) #打印數(shù)據(jù) for row in data: print(row)
以上代碼實(shí)現(xiàn)了簡(jiǎn)單的表格數(shù)據(jù)抓取。需要注意的是,每個(gè)網(wǎng)站的 HTML 代碼都不同,需要根據(jù)具體的網(wǎng)站調(diào)整代碼。