簡述爬蟲報告的主要內容

CSS

夏志豪2年前17瀏覽0評論

簡述爬蟲報告的主要內容？

一，爬蟲是什么

爬蟲：一段自動抓取互聯網信息的程序，從互聯網上抓取對于我們有價值的信息。

二，爬蟲的基本構架

爬蟲分為五個基本構架：

調度器：相當于一臺電腦的CPU，主要負責調度URL管理器、下載器、解析器之間的協調工作。

URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重復抓取URL和循環抓取URL，實現URL管理器主要用三種方式，通過內存、數據庫、緩存數據庫來實現。

網頁下載器：通過傳入一個URL地址來下載網頁，將網頁轉換成一個字符串，網頁下載器有urllib2（Python官方基礎模塊）包括需要登錄、代理、和cookie，requests(第三方包)

網頁解析器：將一個網頁字符串進行解析，可以按照我們的要求來提取出我們有用的信息，也可以根據DOM樹的解析方式來解析。網頁解析器有正則表達式（直觀，將網頁轉成字符串通過模糊匹配的方式來提取有價值的信息，當文檔比較復雜的時候，該方法提取數據的時候就會非常的困難）、html.parser（Python自帶的）、beautifulsoup（第三方插件，可以使用Python自帶的html.parser進行解析，也可以使用lxml進行解析，相對于其他幾種來說要強大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 樹的方式進行解析的。

數據存儲器：用于將HTML解析器解析出來的數據通過文件或者數據庫形式儲存起來

上一篇easypdf在電腦有什么用

下一篇c語言輸出空格占幾個格子

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網站導航

網站導航

網站分類

簡述爬蟲報告的主要內容

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網站導航

網站導航

網站分類

簡述爬蟲報告的主要內容

相關文章