欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

如何從Python中提取PDF文檔信息

如何從Python中提取PDF文檔信息?

好我們可以用 Python 完成這項(xiàng)工作。下面就分享一下如何用 Python 解析一個(gè)PDF文件,將其轉(zhuǎn)為一列關(guān)鍵字。

設(shè)置:

本教程我們使用的是 Python 3.6.3,當(dāng)然在實(shí)際工作中你可以使用任何你喜歡的 Python 版本,只要它支持用到的庫(kù)就行。

需要安裝以下 Python 庫(kù):

PyPDF2(用于將簡(jiǎn)單的基于文本的 PDF 文件轉(zhuǎn)為 Python 可讀的文本)

Textract(用于將 PDF 掃描文件轉(zhuǎn)為 Python 可讀的文本)

Nltk(用于清理短語(yǔ)、將短語(yǔ)轉(zhuǎn)為關(guān)鍵字)

可以通過(guò)以下命令行安裝這些庫(kù):

pip install PyPDF2

pip install textract

pip install nltk

這樣我們就安裝了解析 PDF 文件所需的庫(kù),一定要確保你的 PDF 文件放在你編寫(xiě)腳本所在的文件夾中。

啟動(dòng)編輯器,開(kāi)始敲代碼吧!

第一步:導(dǎo)入庫(kù)

第2步:讀取 PDF 文件

第3步:將文本轉(zhuǎn)換為關(guān)鍵字

現(xiàn)在我們就將手中的 PDF 文件保存為了列表,可以按自己的需要使用了。如果想讓 PDF 可搜索,或者解析大量文件進(jìn)行聚類(lèi)分析,還可以將得到的列表保存在電子表格中。