如何從Python中提取PDF文檔信息

如何從Python中提取PDF文檔信息？

好我們可以用 Python 完成這項(xiàng)工作。下面就分享一下如何用 Python 解析一個(gè)PDF文件，將其轉(zhuǎn)為一列關(guān)鍵字。

設(shè)置：

本教程我們使用的是 Python 3.6.3，當(dāng)然在實(shí)際工作中你可以使用任何你喜歡的 Python 版本，只要它支持用到的庫(kù)就行。

需要安裝以下 Python 庫(kù)：

PyPDF2（用于將簡(jiǎn)單的基于文本的 PDF 文件轉(zhuǎn)為 Python 可讀的文本）

Textract（用于將 PDF 掃描文件轉(zhuǎn)為 Python 可讀的文本）

Nltk（用于清理短語(yǔ)、將短語(yǔ)轉(zhuǎn)為關(guān)鍵字）

可以通過(guò)以下命令行安裝這些庫(kù)：

pip install PyPDF2

pip install textract

pip install nltk

這樣我們就安裝了解析 PDF 文件所需的庫(kù)，一定要確保你的 PDF 文件放在你編寫(xiě)腳本所在的文件夾中。

啟動(dòng)編輯器，開(kāi)始敲代碼吧！

第一步：導(dǎo)入庫(kù)

第2步：讀取 PDF 文件

第3步：將文本轉(zhuǎn)換為關(guān)鍵字

現(xiàn)在我們就將手中的 PDF 文件保存為了列表，可以按自己的需要使用了。如果想讓 PDF 可搜索，或者解析大量文件進(jìn)行聚類(lèi)分析，還可以將得到的列表保存在電子表格中。

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站