初學者必須具備的基本技能。本文將介紹。
1. 使用urllib庫打開HTML文件
內置的HTTP請求庫,可以用來發送HTTP請求和獲取HTTP響應。使用urllib庫打開HTML文件的步驟如下:
port urllib.request
seple/')lse.read()tl)
2. 使用requests庫打開HTML文件
第三方庫,用于發送HTTP請求和獲取HTTP響應。使用requests庫打開HTML文件的步驟如下:
port requests
seple/')lse.texttl)
3. 使用BeautifulSoup庫解析HTML文件
第三方庫,用于解析HTML和XML文件。使用BeautifulSoup庫解析HTML文件的步驟如下:
port BeautifulSoupport requests
seple/')sel.parser')t(soup.prettify())
l庫解析HTML文件
ll庫解析HTML文件的步驟如下:
lport etreeport requests
seple/')lse.text)gl)t(result)
l.parser模塊解析HTML文件
ll.parser模塊解析HTML文件的步驟如下:
lport HTMLParserport requests
class MyHTMLParser(HTMLParser):dle_starttag(self, tag, attrs):t("Start tag:", tag) attrs:t(" attr:", attr)
dledtag(self, tag):td tag :", tag)
dle_data(self, data):t("Data :", data)
seple/')
parser = MyHTMLParser()se.text)
ll編程打下基礎。