如何從Python中提取PDF文檔信息?
好我們可以用 Python 完成這項(xiàng)工作。下面就分享一下如何用 Python 解析一個(gè)PDF文件,將其轉(zhuǎn)為一列關(guān)鍵字。
設(shè)置:
本教程我們使用的是 Python 3.6.3,當(dāng)然在實(shí)際工作中你可以使用任何你喜歡的 Python 版本,只要它支持用到的庫(kù)就行。
需要安裝以下 Python 庫(kù):
PyPDF2(用于將簡(jiǎn)單的基于文本的 PDF 文件轉(zhuǎn)為 Python 可讀的文本)
Textract(用于將 PDF 掃描文件轉(zhuǎn)為 Python 可讀的文本)
Nltk(用于清理短語(yǔ)、將短語(yǔ)轉(zhuǎn)為關(guān)鍵字)
可以通過(guò)以下命令行安裝這些庫(kù):
pip install PyPDF2
pip install textract
pip install nltk
這樣我們就安裝了解析 PDF 文件所需的庫(kù),一定要確保你的 PDF 文件放在你編寫(xiě)腳本所在的文件夾中。
啟動(dòng)編輯器,開(kāi)始敲代碼吧!
第一步:導(dǎo)入庫(kù)
第2步:讀取 PDF 文件
第3步:將文本轉(zhuǎn)換為關(guān)鍵字
現(xiàn)在我們就將手中的 PDF 文件保存為了列表,可以按自己的需要使用了。如果想讓 PDF 可搜索,或者解析大量文件進(jìn)行聚類(lèi)分析,還可以將得到的列表保存在電子表格中。