Python爬蟲是一種非常強大的爬取互聯網數據的工具,可以輕松地爬取網站上的數據。本文將介紹如何使用Python爬蟲爬取智聯招聘的數據,并進行簡單的數據分析。
import requests # 導入requests庫 import pandas as pd # 導入pandas庫 from bs4 import BeautifulSoup # 導入BeautifulSoup庫 url = 'https://sou.zhaopin.com/?jl=530&kw=Python&kt=3' # 目標網站地址 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'} response = requests.get(url, headers=headers) # 發送GET請求 soup = BeautifulSoup(response.text, 'html.parser') # 解析網頁內容 job_list = soup.find_all('table', class_='newlist')[1].find_all('tr')[1:] # 提取職位列表 data = [] for job in job_list: title = job.find_all('td')[0].find('a').get_text() # 獲取職位名稱 company = job.find_all('td')[1].find('a').get_text() # 獲取公司名稱 salary = job.find_all('td')[2].get_text() # 獲取工資信息 location = job.find_all('td')[3].get_text() # 獲取工作地點 data.append({'職位名稱': title, '公司名稱': company, '工資信息': salary, '工作地點': location}) df = pd.DataFrame(data) # 將數據轉為DataFrame格式 df.to_csv('job.csv', encoding='utf-8', index=False) # 將數據保存為CSV文件 print(df.head()) # 打印前5行數據
以上代碼使用requests庫發送GET請求,然后使用BeautifulSoup庫解析網頁內容,最后將數據轉換為DataFrame格式,并將數據保存為CSV文件。
通過分析數據,我們可以使用pandas庫進行簡單的數據分析。例如,我們可以統計Python招聘公司的數量,工資的分布情況等等。這些分析都可以通過數據可視化的方式呈現。
上一篇python 照片去模糊
下一篇c 怎么保存json數據