在全球遭受新冠疫情的沖擊期間,人們對疫情的關注非常高。為了更好地了解疫情的發展情況,很多人開始研究如何從網絡中獲取相關數據。本文將介紹使用Python來爬取疫情數據。
import requests from bs4 import BeautifulSoup url = 'https://news.qq.com/zt2020/page/feiyan.htm' r = requests.get(url) soup = BeautifulSoup(r.content, 'html.parser') tags = soup.select('script') for tag in tags: if 'window.DATA' in tag.text: data = tag.text.split('=')[1].strip()[:-1] break data = eval(data) print('確診:', data['chinaTotal']['confirm']) print('死亡:', data['chinaTotal']['dead']) print('治愈:', data['chinaTotal']['heal'])
在這個例子中,我們使用requests庫來發送GET請求,并使用BeautifulSoup庫來解析HTML,通過選擇script標簽定位到存儲數據的script標簽,然后從中提取數據。最后使用eval()函數將字符串格式的數據轉換成字典格式,從中提取所需數據并輸出。
使用Python爬取疫情數據可以方便地自動化數據采集過程,降低了人工操作的工作量。但是,需要注意的是,通過爬取數據的方式來獲取疫情數據對于疫情信息的真實性需要較高的評估,因為網頁上的數據可能會存在誤差。
上一篇python 爬取崗位
下一篇c 怎么表示json類型