Python 是一種高級編程語言,它的優勢在于可以快速的進行開發和擴展性,其強大的數據處理能力被廣泛應用。這里將介紹如何使用 Python 抓取西刺免費代理網站。
import requests from bs4 import BeautifulSoup url = 'https://www.xicidaili.com/wn/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') table = soup.find('table', {'id': 'ip_list'}) for row in table.tbody.find_all('tr'): td = row.find_all('td') if len(td) >6: ip_address = td[1].text.strip() port = td[2].text.strip() print(f'{ip_address}:{port}')
首先,我們需要導入 requests 和 BeautifulSoup 子模塊,requests 用于獲取網頁的 HTML 源代碼,BeautifulSoup 用來解析 HTML。然后,我們使用 requests 模塊獲取西刺網站中免費代理的網頁內容。
接著,我們使用 BeautifulSoup 模塊,通過 HTML 的標簽和屬性定位到代理信息所在的表格,然后循環遍歷表格中每一行,獲取代理的 IP 地址和端口。
最后,我們輸出代理的 IP 和端口,得到西刺免費代理的信息。這個程序可以幫助我們輕松抓取西刺網站中免費代理的信息,從而方便我們進行網絡爬蟲或者其他需要使用代理的情況。