Python 爬蟲是一種非常強大的工具,可以幫助我們從互聯網上獲取大量數據。下面我們將介紹一些基本的 Python 爬蟲技巧。
1. 爬蟲基礎
# 導入 urllib 庫中的 request 模塊 import urllib.request # 發出 HTTP 請求并獲得響應 response = urllib.request.urlopen('http://www.example.com/') # 讀取響應內容 html = response.read() # 打印響應內容 print(html)
2. 爬蟲實戰
# 導入 BeautifulSoup 庫 from bs4 import BeautifulSoup # 發出 HTTP 請求并獲得響應 response = urllib.request.urlopen('http://www.example.com/') # 讀取 HTML 內容并解析 soup = BeautifulSoup(response, 'html.parser') # 查找頁面中的所有超鏈接 links = soup.find_all('a') # 打印超鏈接 for link in links: print(link.get('href'))
3. 網絡安全
# 導入 ssl 庫 import ssl # 創建 SSL 上下文 context = ssl.create_default_context() # 發出 HTTPS 請求并獲得響應 response = urllib.request.urlopen('https://www.example.com/', context=context)
4. 數據存儲
# 導入 csv 庫 import csv # 打開 CSV 文件并寫入數據 with open('data.csv', mode='w', newline='') as file: writer = csv.writer(file) writer.writerow(['name', 'age', 'gender']) writer.writerow(['John', '28', 'male']) writer.writerow(['Jane', '25', 'female']) # 從 CSV 文件中讀取數據 with open('data.csv', mode='r') as file: reader = csv.reader(file) for row in reader: print(row)
以上是一些 Python 爬蟲的基本技巧,希望能夠給大家提供一些幫助。