欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

python菜鳥教程 pdf,如何從Python中提取PDF文檔信息

老白2年前141瀏覽0評論
python菜鳥教程 pdf以及如何從Python中提取PDF文檔信息這樣的疑問,小編匯總了相關(guān)問答給大家參考!

好我們可以用 Python 完成這項(xiàng)工作。下面就分享一下如何用 Python 解析一個(gè)PDF文件,將其轉(zhuǎn)為一列關(guān)鍵字。

設(shè)置:

本教程我們使用的是 Python 3.6.3,當(dāng)然在實(shí)際工作中你可以使用任何你喜歡的 Python 版本,只要它支持用到的庫就行。

需要安裝以下 Python 庫:

PyPDF2(用于將簡單的基于文本的 PDF 文件轉(zhuǎn)為 Python 可讀的文本)

Textract(用于將 PDF 掃描文件轉(zhuǎn)為 Python 可讀的文本)

Nltk(用于清理短語、將短語轉(zhuǎn)為關(guān)鍵字)

可以通過以下命令行安裝這些庫:

pip install PyPDF2

pip install textract

pip install nltk

這樣我們就安裝了解析 PDF 文件所需的庫,一定要確保你的 PDF 文件放在你編寫腳本所在的文件夾中。

啟動編輯器,開始敲代碼吧!

第一步:導(dǎo)入庫

第2步:讀取 PDF 文件

第3步:將文本轉(zhuǎn)換為關(guān)鍵字

現(xiàn)在我們就將手中的 PDF 文件保存為了列表,可以按自己的需要使用了。如果想讓 PDF 可搜索,或者解析大量文件進(jìn)行聚類分析,還可以將得到的列表保存在電子表格中。

你好,老修來分享一下你的問題。

老修是去年自學(xué)的Python,剛剛開始選擇的方向是自動化運(yùn)維,不過現(xiàn)在主要用它來爬一些數(shù)據(jù),自己做拍視頻用,為此我特意寫了三篇關(guān)于自學(xué)的文章(12個(gè)月,零基礎(chǔ)自學(xué)Python語言心得分享-上篇(內(nèi)含建議和方法)),你可以參考一下;

那這里我們談?wù)勀阏f的這個(gè)人工智能,這個(gè)是有一定門檻的,具體的就不談了,說說如果自學(xué)可能性大嗎?可能性比較低,可以很肯定的和你說,我們先來看看它的線路:

學(xué)完P(guān)ython基礎(chǔ)以后,是數(shù)據(jù)模塊,它需要學(xué)些什么呢?首先需要大專以上,本科這樣的數(shù)學(xué)基礎(chǔ),大概有:線性代數(shù),微積分,代數(shù),概率統(tǒng)計(jì)學(xué),只是基礎(chǔ),也沒真讓我們?nèi)ビ盟鼇硭?;后面對人工智能的Python算法,需要做好幾個(gè)模塊,比如Numpy等;那里邊還有有神經(jīng)網(wǎng)絡(luò),這里又有兩個(gè)派系,所以需要學(xué)的很多,想通過自學(xué),可能性很小,學(xué)會了,人家也不一定敢要你。

粗粗的我們就談這些,希望我的回答能幫到你。

Python辦公自動化主要是批量化、自動化、定制化解決數(shù)據(jù)問題,目前主要分為三大塊:自動化office、自動化機(jī)器人、自動化數(shù)據(jù)服務(wù)。

1、自動化office,包括對excel、word、ppt、email、pdf等常用辦公場景的操作,

python都有對應(yīng)的工具庫,可以很方便的調(diào)用。

提供一些常見的核心庫供大家參考使用。

excel:xlwings、xlrd、xlwt、openpyxl

word:Python-docx

ppt:pptx

email:smtplib(SMTP服務(wù))、email(解析處理)、yagmail(全能)

pdf:pypdf2、pdfminer、pdfplumber

picture:PIL

學(xué)這些會擼python是前提,對于小白來說自學(xué)也不是件容易的事,需要花相當(dāng)?shù)臅r(shí)間去適應(yīng)python的語法邏輯,而且要堅(jiān)持親手敲代碼,不斷練習(xí)。

2、自動化機(jī)器人,用來提高常規(guī)且高頻的服務(wù),比如微信客服、自動交易系統(tǒng)、實(shí)時(shí)信息抓取、QQ聊天機(jī)器人等。

例如

web自動化測試:selenium

模擬鼠標(biāo)鍵盤:pymouse、pywinauto、pyautogui

微信自動化:wechatby

Python自動化辦公其實(shí)并不難,但也需要有Python基礎(chǔ),起碼得會寫腳本,不然盡管有自動化接口也用不了。

很多人入了很長時(shí)間門,還是在門外徘徊,我覺得這是學(xué)習(xí)方法的問題。學(xué)習(xí)編程一定要多練習(xí),基礎(chǔ)+實(shí)戰(zhàn)同步走,這樣才能最快掌握Python。

可能你會問,看書看不進(jìn)去怎么辦,那就換條路子,你可以去看視頻、看網(wǎng)絡(luò)教程、逛github,都是很不錯的方法.

3、自動化數(shù)據(jù)服務(wù),主要是提供流式數(shù)據(jù)服務(wù),從數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)建模、數(shù)據(jù)可視化,到最終生成數(shù)據(jù)報(bào)告,通過python搭建起完整數(shù)據(jù)鏈條。

數(shù)據(jù)抓取:requests、scrapy

數(shù)據(jù)處理:pandas、numpy

數(shù)據(jù)建模:scipy、scikit-learn、statesmodel、keras

數(shù)據(jù)可視化:matplotlib、seaborn、bokeh、pyecharts

數(shù)據(jù)報(bào)表:dash

以python操作excel為例,使用xlwings生成自動化圖表。

1、簡單介紹xlwings

接下來實(shí)操演練:

1、準(zhǔn)備一個(gè)表格

2、對表格進(jìn)行各種操作

導(dǎo)入xlwings庫,命名為xw

import xlwings as xw

建立與活動工作簿的連接

# 這里使用books方法,引用工作簿

wb = xw.books["商品清單.xlsx"]

type(wb)

xlwings.main.Book

查看工作簿的名字

wb.name

'商品清單.xlsx'

實(shí)例化工作表對象

sht = wb.sheets['表一']

查看表一中A1單元格的內(nèi)容

# 標(biāo)準(zhǔn)用法

sht.range('A1').value

'品類'

# 簡潔用法

sht['A1'].value

'品類'

# 索引用法

sht[0,0].value

'品類'

查看表一中A1-D8所有單元格的內(nèi)容

sht.range('A1:D8').value

輸出:

[['品類', '數(shù)量(件)', '單價(jià)(元)', '總價(jià)(元)'],

['堅(jiān)果', 5.0, 30.0, 150.0],

['罐頭', 9.0, 10.0, 90.0],

['牛肉', 3.0, 60.0, 180.0],

['果汁', 10.0, 9.0, 90.0],

['蜂蜜', 2.0, 80.0, 160.0],

['進(jìn)口零食', 4.0, 70.0, 280.0],

['合計(jì)', 33.0, 43.166666666666664, 950.0]]

sht[:8,:4].value

輸出:

[['品類', '數(shù)量(件)', '單價(jià)(元)', '總價(jià)(元)'],

['堅(jiān)果', 5.0, 30.0, 150.0],

['罐頭', 9.0, 10.0, 90.0],

['牛肉', 3.0, 60.0, 180.0],

['果汁', 10.0, 9.0, 90.0],

['蜂蜜', 2.0, 80.0, 160.0],

['進(jìn)口零食', 4.0, 70.0, 280.0],

['合計(jì)', 33.0, 43.166666666666664, 950.0]]

將表一B2單元格5改為7

sht.range('B2').value = 7

向表二中導(dǎo)入dataframe類型數(shù)據(jù)

第一步:連接表二

第二步:生成一個(gè)dataframe類型數(shù)據(jù)集

第三步:導(dǎo)入表二

sht_2 = wb.sheets['表二']

import pandas as pd

df = pd.DataFrame({'姓名':['小王','小張','小李'],'年齡':[23,26,19]})

df

導(dǎo)入:

sht_2.range('B1').value = df

向表二中導(dǎo)入numpy數(shù)組

import numpy as np

obj = np.array([[1,2,3],[4,5,6]])

obj

輸出:

array([[1, 2, 3],

[4, 5, 6]])

導(dǎo)入:

sht_2.range('F1').value = obj

將excel中數(shù)據(jù)導(dǎo)出為DataFrame格式

sht_2.range('B1').options(pd.DataFrame, expand='table').value

用matplotlib繪圖并將圖片貼到excel上

import matplotlib.pyplot as plt

fig = plt.figure(figsize=(4,4))

plt.plot([1,2,3,4,5])

sht_2.pictures.add(fig, name='MyPlot', update=True)

輸出:

<Picture 'MyPlot' in <Sheet [商品清單.xlsx]表二>>

修改表三中A1單元格的寬和高

連接表三

sht_3 = wb.sheets['表三']

查看A1單元格的寬和高

# 查看列寬

sht_3.range('A1').column_width

8.11

# 查看行高

sht_3.range('A1').row_height

13.8

A1單元格高改為15.6,寬改為2.2

sht_3.range('A1').column_width = 2.2

sht_3.range('A1').row_height = 15.6

修改表三B1單元格顏色

# 查看B1單元格顏色

sht_3.range('B1').color

(255, 0, 0)

# 修改B1單元格顏色為黑色

sht_3.range('B1').color = (0,0,0)

寫一個(gè)自動化的小腳本

def f():

sht_3.range("A1:AZ48").column_width = 1.1

sht_3.range('A1:AZ48').row_height = 7.8

list_1 = pd.read_csv('zaike.csv').values

for i,j in list_1:

sht_3[int(i),int(j)].color = (255,25,0)

f()

list_1 = []

for i in range(30):

for j in range(40):

c = sht_3[i,j].color

if c == (255,0,0):

list_1.append((i,j))

這些小例子都能跑,你可以放自己電腦上運(yùn)行下,或者手敲每個(gè)代碼,這樣絕對能高效率掌握。

如果對python語法還不熟悉,最好先把框架熟悉一遍,多做些練習(xí)。

謝謝邀請

Python 可以說是一匹黑馬了,伴隨著人工智能,大數(shù)據(jù)的發(fā)展而漸漸步入人們的視野,其實(shí)python 的學(xué)習(xí)是不復(fù)雜的,因?yàn)閺乃家呀?jīng)列入小學(xué)生教材了,可以看出他的入門,并不需要多大的門檻。下面我們具體說下python 的學(xué)習(xí)方法和學(xué)習(xí)途徑。

1.學(xué)習(xí)方法

首先python 也是一門編程語言

如果你要是沒有編程基礎(chǔ),那么你肯定要從最基本的熟悉鍵盤下手,因?yàn)槿绻鳛橐幻绦騿T如果你連盲打都不會,那么你的技術(shù)肯定不咋樣呵。

在對鍵盤熟悉后,你就要非常勤奮的敲代碼,不管你是跟著網(wǎng)上教程學(xué),還是去培訓(xùn)班學(xué)習(xí),在講師講解的時(shí)候,一定要跟上,有問題當(dāng)天必須要解決,相信我,人都是有惰性的。老師留下的課后習(xí)題,也要認(rèn)認(rèn)真真的完成,多多請教比你技術(shù)好的人。

另外當(dāng)今互聯(lián)網(wǎng)這么發(fā)達(dá),你要善于借助互聯(lián)網(wǎng),自己私下在網(wǎng)上搜索一些demo,從簡單到復(fù)雜,跟著練習(xí),前期的話,你可以先看懂別人的代碼,最后再自己慢慢動手做。

2.學(xué)習(xí)途徑

說到學(xué)習(xí)途徑的話,我這里有兩個(gè)建議。

第一,你可以去進(jìn)入一個(gè)培訓(xùn)班學(xué)習(xí),當(dāng)然了,這個(gè)是要交學(xué)費(fèi)的,交學(xué)費(fèi)一是給培訓(xùn)機(jī)構(gòu)了,二來也是對自己的一個(gè)交代,因?yàn)榻贿^錢你會更加努力的學(xué)習(xí)。

第二,你可以借助當(dāng)下互聯(lián)網(wǎng)環(huán)境,現(xiàn)在網(wǎng)上這種的公開課已經(jīng)有很多了,但大都是入門免費(fèi),深入收費(fèi),如果你有良好的自制力和自學(xué)能力,那么你不妨試試這種方式,畢竟學(xué)習(xí)自由,收費(fèi)相對較低。

以上就是我的回答,希望能幫到你,如各位看官有更好的建議,不妨也提出來,信息分享,最后祝你學(xué)必成,成必過。

總結(jié),以上就是關(guān)于python菜鳥教程 pdf以及如何從Python中提取PDF文檔信息的經(jīng)驗(yàn)分享,卡友有疑問可以加wx或掃碼加群!