近年來,爬蟲技術(shù)的普及與應(yīng)用越來越廣泛,不僅能夠抓取大量有用的數(shù)據(jù),還能夠用于各種有趣的應(yīng)用,比如爬取網(wǎng)站上的妹子圖片。
import requests from bs4 import BeautifulSoup base_url = "https://www.meizitu.com/" def get_img_url(url): html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') img_url_list = [] for img in soup.find_all('img', class_='pic'): img_url_list.append(img['data-original']) return img_url_list def download_img(img_url_list): for url in img_url_list: img_name = url.split('/')[-1] img_content = requests.get(url).content with open('meizitu/' + img_name, 'wb') as f: f.write(img_content) print("Successfully downloaded:", img_name) if __name__ == '__main__': for i in range(1, 10): url = base_url + "a/more_" + str(i) + ".html" img_url_list = get_img_url(url) download_img(img_url_list)
上面是python爬取妹子圖片的代碼,首先通過requests庫獲取網(wǎng)頁的html代碼,再利用beautifulsoup庫解析html代碼獲取img標簽中的data-original屬性,即圖片的原始鏈接。接著通過requests庫的get方法獲取圖片二進制數(shù)據(jù),最后保存成本地文件。通過循環(huán)遍歷就可以將整個網(wǎng)站上的妹子圖片全部爬取到本地。
需要注意的是,網(wǎng)絡(luò)爬蟲存在法律風險,請慎用此技術(shù)。