Python是一種廣泛使用的編程語言,因其簡(jiǎn)單易學(xué)、多用途并具有良好的文檔庫(kù)而備受歡迎。Python常常用于網(wǎng)絡(luò)數(shù)據(jù)采集,即爬取數(shù)據(jù)。那么,如何使用Python爬取網(wǎng)站上的地址呢?
import requests from bs4 import BeautifulSoup # 獲取頁(yè)面鏈接 url = 'https://www.example.com/' res = requests.get(url) soup = BeautifulSoup(res.text, 'html.parser') # 找到所有地址 addresses = [] for link in soup.find_all('a'): addresses.append(link.get('href')) # 去除重復(fù)地址并輸出 unique_addresses = list(set(addresses)) for address in unique_addresses: print(address)
上述代碼使用了requests
庫(kù)和bs4
庫(kù),前者用于獲取頁(yè)面鏈接,后者用于解析HTML。我們使用find_all()
方法找出HTML中所有的a
標(biāo)簽并獲取其href
屬性,即地址。為去除重復(fù)地址,使用Python中列表去重的方法(將列表轉(zhuǎn)為集合,再轉(zhuǎn)回列表)而得到不同的地址集。最終使用循環(huán)展現(xiàn)所有不同地址。
使用Python爬取地址并不難,這是Python強(qiáng)大的網(wǎng)絡(luò)數(shù)據(jù)采集功能的一部分。Python的應(yīng)用場(chǎng)景非常多,如數(shù)據(jù)分析、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、自然語言處理、網(wǎng)絡(luò)爬蟲等等。我們可以嘗試使用Python去實(shí)現(xiàn)自己的想法。