最近在學習Python,想練習一下爬蟲技術。于是我選擇了爬取論壇圖片為練手項目。下面是我對這個過程的記錄。
import requests from bs4 import BeautifulSoup import os url = 'http://www.example.com' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') imgs = soup.find_all('img') count = 0 for img in imgs: img_url = img.get('src') response = requests.get(img_url) count += 1 with open(os.path.join('images', 'image' + str(count) + '.jpg'), 'wb') as f: f.write(response.content)
首先,我們需要導入需要的庫:requests用于網絡請求,BeautifulSoup用于解析HTML,os用于管理文件路徑。然后,我們可以定義要爬取的論壇網址和響應的格式。
接著,我們需要訪問網址,并對響應內容進行解析。在這里,我們使用BeautifulSoup的find_all()函數查找所有的圖片標簽。然后,我們可以使用requests再次訪問每張圖片,并將它們保存到本地文件夾中。在這里,我使用了計數器來給這些圖片命名,并將它們保存到了images文件夾中。
到這里,我們就成功地將論壇中的圖片爬取下來了!
需要注意的是,爬取圖片需要付出一定的時間和網絡請求,因此要注意不要頻繁爬取同一個網站,否則容易被封IP地址。