Python 是一個非常流行的編程語言,而在其中,爬蟲是一個非常有趣的領域。Python 擁有非常多的爬蟲框架,讓開發者可以更快速、高效地完成工作。在這篇文章中,我將向大家介紹幾個常見的 Python 爬蟲框架。
# scrapy 爬蟲框架 import scrapy class QuoteSpider(scrapy.Spider): name = 'quotes' def start_requests(self): urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/', ] for url in urls: yield scrapy.Request(url=url, callback=self.parse) def parse(self, response): page = response.url.split("/")[-2] filename = f'quotes-{page}.html' with open(filename, 'wb') as f: f.write(response.body) self.log(f'Saved file {filename}') # beautifulsoup 爬蟲框架 from bs4 import BeautifulSoup import requests url = 'http://quotes.toscrape.com' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') print(soup.title.string) # selenium 爬蟲框架 from selenium import webdriver browser = webdriver.Chrome() browser.get('http://quotes.toscrape.com') print(browser.title) browser.quit()
以上展示的是 Scrapy、BeautifulSoup、Selenium 等常見 Python 爬蟲框架的樣例代碼。其中,Scrapy 是一個成熟、高效的框架,適用于大型、復雜的爬蟲項目。而 Beautifulsoup 則更加方便快捷,適用于小型的爬蟲任務。Selenium 則是一個強大而靈活的工具,不僅可以用于簡單的爬蟲操作,還可以模擬人工操作流程,對于一些需要交互的爬蟲任務非常有用。
總之,Python 擁有非常強大且豐富的爬蟲框架,可以根據實際需求進行選擇,提高開發效率,幫助開發者更好地完成爬蟲任務。