欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

爬蟲可以干什么?

錢淋西2年前17瀏覽0評論

本人剛剛跨專業到大數據方向,每天就是跟各種各樣的數據打交道,數據采集令人頭疼,于是硬著頭皮去嘗試各式各樣的爬蟲工具,可大都操作繁瑣,要不就是采集精度不夠,直到在B站看教程時看到前嗅forespider的教程時,才發現這款實用又好用的寶藏軟件。

與之前試用過的其他爬蟲軟件對比,前嗅ForeSpider爬蟲有自己的可視化配置模板,不僅對小白十分友好,更讓實力選手省心節力。下面我就以人上人體驗教育網(網址:http://www.gzrsr.com/news/)來演示一下自己當時學習的步驟:

  • 可視化模板下的翻頁鏈接抽取配置

1.【復制網頁】

找到自己想要獲取內容所在的網站,復制網址

2.【新建任務】

打開forespider程序;點擊“采集配置”--點擊“+”新建任務-在彈出的任務窗口內粘入剛剛復制的網站鏈接,并修改任務名稱--點擊完成

3.【抽取網頁鏈接】

①點擊模板配置下“添加鏈接抽取”按鈕;分別將兩個抽取鏈接命名為:翻頁鏈接、列表鏈接

②點擊“翻頁鏈接”選項--Ctrl+鼠標左鍵選取一個翻轉頁,shift+鼠標左鍵擴大至翻轉頁選區--點擊“確認選區”,點擊保存。

③點擊“翻頁鏈接”,在關聯模板下拉選擇“默認模板:01”;點擊保存。此時,就完成了翻轉頁鏈接的抽取設置,可以點擊“采集預覽”對采集結果進行查看。

④列表鏈接抽取

  • 可視化模板下的數據抽取配置

1.【創建數據表單】

數據建表--創建表單并更改名稱--創建數據表結構--根據需求設置相應字段,最后保存

2.【創建數據表】

3.【關聯數據表】

①如下,令模板關聯數據表

②點擊“列表鏈接”,在關聯模板下拉選擇“新建模板02”,點擊保存

③如下配置示例地址

4.【定位數據】

①如下圖依次將每個字段對應定位

②此處展開講一個細節:當對所需字段定位選區時不可避免的選取到了不想要的內容時,可以通過字段屬性配置里的數據清洗功能對所需內容進行相應的字符串截取。

以發表日期字段數據為例,此處需截取中間串來抽取該數據內容,如下:

如果需要選取右串數據,則如下設置(取左串同理):

5.采集預覽

點擊模板抽取配置下第一個標題,右鍵單擊并選擇“模板預覽”,即可看到想要的數據,這樣就完成了模板配置。

  • 數據采集與展示

1.選取“關聯數據表”,為將要采取的數據關聯數據表

2.開啟數據采集,如下:

3.瀏覽查看采集到的數據:

以上,就完成了數據采集模板的配置、數據采集與數據瀏覽??梢钥吹?,可視化的數據采集模板配置起來很便捷,配置以及采集功能的操作非常智能,可實現的采集要求也十分全面。