Python是一種廣泛使用的編程語言,其強大的庫使其成為了爬取數(shù)據(jù)的利器。本文將介紹如何使用Python編寫程序爬取豆瓣帖子的內容。
import requests
import re
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
url = 'https://www.douban.com/group/haixiuzu/discussion?start=0'
response = requests.get(url, headers=headers).text
title_list = re.findall(r'(.*?)', response, re.S)
for title in title_list:
print(title)
首先,我們需要導入requests和re兩個模塊。使用requests模塊來發(fā)送HTTP請求,re模塊則用于正則表達式匹配。在HTTP請求中,我們需要設置一個請求頭headers,用于模擬瀏覽器訪問。
接著,我們創(chuàng)建一個url變量,用于指定我們要爬取的豆瓣小組的帖子網(wǎng)址。然后使用requests模塊的get方法來發(fā)送請求,并返回響應的文本內容。
我們使用re模塊的findall函數(shù)來匹配HTML內容中符合正則表達式的內容,這里是帖子的標題。最后使用for循環(huán)遍歷匹配到的所有標題,并將它們輸出到屏幕上。
至此,我們就完成了簡單的豆瓣帖子爬取程序。通過學習這個例子,讀者們可以進一步深入了解Python如何進行數(shù)據(jù)爬取與處理。
上一篇django時間json
下一篇python 爬論壇圖片