Python 是一種功能強大且流行的編程語言,可以用于許多任務,包括 Web 開發、數據分析和爬蟲。Python 對于網絡爬蟲非常友好,可以輕松地從網站上獲取數據。Pixiv(簡稱 P 站)是一個非常受歡迎的繪畫和插圖分享網站,其中包括了許多獨特和有趣的作品。下面我們來介紹如何使用 Python 爬取 P 站的作品。
import requests
from bs4 import BeautifulSoup
# 將要獲取的頁面的 URL 替換為您要爬的頁面 URL
url = "https://www.pixiv.net/ranking.php?mode=daily&content=illust&p=1"
# 發送 HTTP 請求以獲取頁面內容
response = requests.get(url)
# 使用 BeautifulSoup 對 HTML 文件進行解析
soup = BeautifulSoup(response.content, "html.parser")
# 遍歷 HTML 標記以找到所有圖片的鏈接
links = []
for a_tag in soup.find_all("a"):
href = a_tag.get("href")
if href and "img-original" in href:
links.append(href)
# 將所有的圖片鏈接輸出
for link in links:
print(link)
上面這段代碼首先定義了要從中獲取數據的 URL,然后通過請求模塊 `requests` 發送對該 URL 的 HTTP 請求以獲取 HTML 頁面。接下來,使用美味湯庫 `BeautifulSoup` 對頁面進行解析,并找到所有包含 Pixiv 原始圖片鏈接的 `a` 標簽。然后,存儲所有鏈接到列表中,最后輸出所有鏈接。
在實際應用中,您可能需要先登錄 P 站網站才能獲取更多成人作品。還要注意避免過度使用爬蟲,以免網站因為異常流量而崩潰。
上一篇vue代理請求超時
下一篇python 照片轉文字