在爬蟲爬取網頁的過程中,為了快速、精準地提取所需的信息,CSS選擇器成為了必須掌握的技能之一。以下是CSS選擇器的使用方法:
import requests from lxml import etree #首先,使用requests庫獲取網頁源代碼 url = "http://www.example.com" response = requests.get(url) html = response.text #接著,使用etree庫將源代碼轉換為xpath對象,并使用CSS選擇器按照需求提取信息 etree_html = etree.HTML(html) #提取所有的a標簽中的鏈接 links = etree_html.cssselect('a') for link in links: print(link.get('href')) #提取表格中的信息 table = etree_html.cssselect('table')[0] rows = table.cssselect('tr') for row in rows: cols = row.cssselect('td') for col in cols: print(col.text.strip()) #通過CSS類提取信息 items = etree_html.cssselect(".item") for item in items: print(item.text)
CSS選擇器具有較大的靈活性,可以通過選擇元素、ID、類名、屬性等方式進行信息提取。雖然使用CSS選擇器提取信息比正則表達式要簡單直觀,但為了獲取準確的信息,還需多加練習和實踐。