Python是一種非常強(qiáng)大的編程語(yǔ)言,也是現(xiàn)代Web爬蟲(chóng)的首選編程語(yǔ)言之一。在接下來(lái)的文章中,我們將介紹如何使用Python爬取攜程網(wǎng)站的數(shù)據(jù)。
# 導(dǎo)入相關(guān)庫(kù) import requests from bs4 import BeautifulSoup # 攜程網(wǎng)址及請(qǐng)求頭部 url = 'https://www.ctrip.com/' header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'} # 獲取網(wǎng)頁(yè)源代碼 response = requests.get(url, headers=header) html = response.content # 解析網(wǎng)頁(yè)源代碼 soup = BeautifulSoup(html, 'html.parser') # 獲取酒店排名信息 hotel_rank = soup.find_all('a', class_='rank-list-title') for hotel in hotel_rank: print(hotel.text)
以上代碼使用requests庫(kù)發(fā)送請(qǐng)求并獲得攜程網(wǎng)站的源代碼,然后使用BeautifulSoup庫(kù)解析網(wǎng)頁(yè)源代碼。然后,我們從攜程網(wǎng)站上獲取酒店排名信息并輸出。這是在爬取攜程網(wǎng)站時(shí)的一個(gè)簡(jiǎn)單例子。
總之,使用Python爬取攜程網(wǎng)站的方法有很多,代碼隨時(shí)可以進(jìn)行修改和調(diào)試,這需要您熟練掌握Python的基礎(chǔ)知識(shí)以及Web爬蟲(chóng)的相關(guān)知識(shí)。使用Python爬取攜程網(wǎng)站的過(guò)程中還要注意遵守相關(guān)法律法規(guī)。
上一篇python 爬取新冠
下一篇python 爬取rss