Python 是一種使用廣泛的編程語言,它可以幫助我們完成各種任務(wù)。其中之一就是將網(wǎng)頁存儲(chǔ)到本地。我們可以使用 Python 中的 urllib 和 Beautiful Soup 庫來完成這個(gè)任務(wù)。
首先,我們需要導(dǎo)入這兩個(gè)庫:
import urllib.request from bs4 import BeautifulSoup接下來,我們需要指定要保存的網(wǎng)頁地址,并用 urllib.request 來下載網(wǎng)頁內(nèi)容:
url = "http://www.example.com" response = urllib.request.urlopen(url) html = response.read()現(xiàn)在,我們將 html 中的內(nèi)容轉(zhuǎn)換為一個(gè) BeautifulSoup 對(duì)象,然后使用 find_all() 方法來查找頁面中所有的段落元素(即 p 標(biāo)簽):
soup = BeautifulSoup(html, 'html.parser') paragraphs = soup.find_all('p')接下來,我們可以將這些段落存儲(chǔ)到一個(gè)文本文件中,每個(gè)段落都用 p 標(biāo)簽包裹。
with open("webpage.txt", "w", encoding="utf-8") as file: for paragraph in paragraphs: file.write("現(xiàn)在,我們已經(jīng)成功地將一個(gè)網(wǎng)頁存儲(chǔ)到了本地,并且用 p 標(biāo)簽包裹了每個(gè)段落。如果你想了解更多關(guān)于 Python 的知識(shí),請(qǐng)繼續(xù)學(xué)習(xí)。" + str(paragraph) + "
")