這里介紹一種簡(jiǎn)單的方式—BeautifulSoup,利用BeautifulSoup將爬蟲(chóng)獲取到的html頁(yè)面轉(zhuǎn)化為樹(shù)形結(jié)構(gòu),然后再根據(jù)需要提取標(biāo)簽的內(nèi)容及屬性,不需要正則表達(dá)式,下面我簡(jiǎn)單介紹一下BeautifulSoup安裝和使用,實(shí)驗(yàn)環(huán)境win10+python3.6+pycharm5.0,主要內(nèi)容如下:
1.安裝bs4,這里直接在cmd窗口輸入命令“pip install bs4”就行,如下,很快就能安裝完畢:
2.安裝成功后,我們就可以進(jìn)行測(cè)試了,為了更好地說(shuō)明問(wèn)題,這里假設(shè)爬取的數(shù)據(jù)如下,內(nèi)容比較簡(jiǎn)單:
對(duì)應(yīng)的網(wǎng)頁(yè)源碼結(jié)構(gòu)如下:
根據(jù)網(wǎng)頁(yè)結(jié)構(gòu),解析代碼如下,這里我是本地打開(kāi)html文件,爬蟲(chóng)的話,直接使用requests請(qǐng)求對(duì)應(yīng)的頁(yè)面(requests.get(url)),解析的方式是一樣的:
程序運(yùn)行截圖如下,已經(jīng)成功獲取到數(shù)據(jù):
至此,我們就完成了利用BeautifulSoup來(lái)解析網(wǎng)頁(yè)內(nèi)容,整個(gè)過(guò)程不需要正則表達(dá)式。總的來(lái)說(shuō),這種方式很簡(jiǎn)單,對(duì)于常見(jiàn)的簡(jiǎn)單的頁(yè)面來(lái)說(shuō),完全夠用了(不過(guò),正則表達(dá)式的使用范圍比較廣,建議還是認(rèn)真學(xué)習(xí)一下),網(wǎng)上也有相關(guān)教程和資料,感興趣的可以搜一下,希望以上分享的內(nèi)容能對(duì)你有所幫助吧。
是爬蟲(chóng)工具箱,
Beautiful Soup 是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫(kù).它能夠通過(guò)你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式.Beautiful Soup會(huì)幫你節(jié)省數(shù)小時(shí)甚至數(shù)天的工作時(shí)間.你可能在尋找 Beautiful Soup3 的文檔,Beautiful Soup 3 目前已經(jīng)停止開(kāi)發(fā),官網(wǎng)推薦在現(xiàn)在的項(xiàng)目中使用Beautiful Soup 4。WebMagic是一個(gè)開(kāi)源的Java垂直爬蟲(chóng)框架,目標(biāo)是簡(jiǎn)化爬蟲(chóng)的開(kāi)發(fā)流程,讓開(kāi)發(fā)者專注于邏輯功能的開(kāi)發(fā)。
設(shè)計(jì)原理
webmagic采用完全模塊化的設(shè)計(jì),功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內(nèi)容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動(dòng)重試、自定義UA/cookie等功能。
webmagic包含頁(yè)面抽取功能,開(kāi)發(fā)者可以使用css selector、xpath和正則表達(dá)式進(jìn)行鏈接和內(nèi)容的提取,支持多個(gè)選擇器鏈?zhǔn)秸{(diào)用。
使用maven
webmagic使用maven管理依賴,在項(xiàng)目中添加對(duì)應(yīng)的依賴即可使用webmagic:
WebMagic 使用slf4j-log4j12作為slf4j的實(shí)現(xiàn).如果你自己定制了slf4j的實(shí)現(xiàn),請(qǐng)?jiān)陧?xiàng)目中去掉此依賴。
項(xiàng)目結(jié)構(gòu)
webmagic主要包括兩個(gè)包:
webmagic-corewebmagic核心部分,只包含爬蟲(chóng)基本模塊和基本抽取器。webmagic-core的目標(biāo)是成為網(wǎng)頁(yè)爬蟲(chóng)的一個(gè)教科書(shū)般的實(shí)現(xiàn)。
webmagic-extensionwebmagic的擴(kuò)展模塊,提供一些更方便的編寫(xiě)爬蟲(chóng)的工具。包括注解格式定義爬蟲(chóng)、JSON、分布式等支持。
webmagic還包含兩個(gè)可用的擴(kuò)展包,因?yàn)檫@兩個(gè)包都依賴了比較重量級(jí)的工具,所以從主要包中抽離出來(lái),這些包需要下載源碼后自己編譯。
css選擇器更好用,他在傳感器方面有一定升級(jí),雖然說(shuō)他們的處理器都是相同的,但是傳感器也會(huì)。性能表現(xiàn),因?yàn)閭鞲袇^(qū)過(guò)低會(huì)導(dǎo)致接觸不靈敏,使用起來(lái)非常麻煩,系統(tǒng)流暢性也會(huì)。他用的是相對(duì)比較好的傳感去。所以使用起來(lái)流程度非常高,不會(huì)出現(xiàn)卡頓的情況,另外他對(duì)門號(hào)的優(yōu)化也做得比較好。續(xù)航更加方便。