Python 網頁選擇器是一種用于從網頁中提取信息的工具。它可以識別 HTML 或 XML 格式的文件,并提取指定元素的數據。
在 Python 中,有很多網頁選擇器庫可供使用。其中最流行和強大的是 Beautiful Soup。安裝 Beautiful Soup 后,我們就可以使用它提供的 API 來進行網頁內容的解析和提取。
# 導入 Beautiful Soup 模塊 from bs4 import BeautifulSoup # 創建一個 HTML 字符串變量,表示網頁 HTML 內容 html_doc = '''<html><head><title>這是一個網頁標題</title></head> <body> <p class="theme">這是一個段落內容</p> <p class="theme">這是另一個段落內容</p> <a >這是一個超鏈接</a> </body></html>''' # 創建 Beautiful Soup 對象,并指定用 lxml 作為解析器 soup = BeautifulSoup(html_doc, 'lxml') # 使用 select 方法提取 class 為 theme 的所有 p 元素 themes = soup.select('.theme') # 循環遍歷所有 p 元素,并輸出它們的內容 for theme in themes: print(theme.text)
上述代碼會輸出兩個段落的內容:「這是一個段落內容」和「這是另一個段落內容」。我們可以看到,通過使用 Beautiful Soup 的 select 方法,非常方便地從網頁中提取了我們所需的元素內容。
上一篇python 極坐標系
下一篇python 美白算法