網站導航

zblogPHP模板zbpkf
zblog免費模板zblogfree
zblog模板學習zblogxuexi
zblogPHP仿站zbpfang

微信公眾號文章怎么采集

CSS

錢斌斌2年前23瀏覽0評論

微信公眾號文章怎么采集？

我這里正好有個教程，希望能夠幫助到你

一.場景簡介

1.場景描述：通過搜狗采集微信公眾號的文章

2.入口網址：https://weixin.sogou.com/weixin?type=1&s_from=input&query=%E5%89%8D%E5%97%85&ie=utf8&_sug_=n&_sug_type_=

3.采集內容：

采集搜狗微信平臺中，關鍵詞搜索出來的微信公眾號文章的標題、正文、作者、公眾號名稱等。

二.思路分析

配置思路概覽

配置步驟

1. 新建采集任務

選擇【采集配置】，點擊任務列表右上方【+】號可新建采集任務，將采集入口地址填寫在【采集地址】框中，【任務名稱】自定義即可，點擊下一步。

繼續勾選普通翻頁，然后點擊完成，創建成功。

2.關鍵詞配置

①在入口頁搜索不同關鍵詞，發現不同關鍵詞搜索結果的鏈接，只更換了圖中紅框部分，而紅框部分正是經過轉碼后的關鍵詞，于是得出關鍵詞鏈接的拼接規則為：

https://weixin.sogou.com/weixin?type=2&s_from=input&query=關鍵詞

②得到關鍵詞鏈接拼接規則后，開始配置關鍵詞搜索：

點擊屏幕右下角【高級配置】，將采集地址填寫到【請求地址】中，點擊【+】添加一個參數，名稱可以自定義，此項配置是用于后期腳本能將關鍵詞從關鍵詞列表中取出，配置完成點擊【確定】即可。

將參數類型選擇為檢索關鍵詞，點擊保存。

③由于本模板是以關鍵詞搜索為入口，所以在【模板抽取配置】選擇頻道（即任務名稱），選擇【腳本窗口】，將關鍵詞搜索配置在頻道處即可。

④具體配置腳本如下：

添加一個或多個關鍵詞，并保存，如下圖所示。（多個關鍵詞用英文;隔開）

⑤效果預覽：

在【關鍵詞列表】中填寫關鍵詞，點擊【保存】，點擊【采集預覽】，即可看到配置效果。

如果采集預覽異常，可打開前嗅官網，咨詢技術支持。

3.翻頁配置

關鍵詞配置完成，下一步是獲取關鍵詞搜索結果中的全部翻頁鏈接。

①同樣選擇【腳本窗口】，配置翻頁腳本。

②對關鍵詞搜索出的網頁翻頁，觀察網頁地址的變化。

https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8 第二頁

https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=3&ie=utf8 第三頁

發現翻頁鏈接是在原地址中增加了“&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8”部分，隨著頁碼的改變，僅有page參數的值在變化。page為頁碼的配置參數，其它不變部分，直接拼接在鏈接中即可。

③具體配置腳本如下：

④效果預覽：

如果采集預覽異常，可打開前嗅官網，咨詢技術支持。

4.鏈接抽取

這一步是在獲取的翻頁鏈接中，提取每頁全部微信文章的鏈接：

①在原有模板基礎上，右鍵選擇【添加模板】，并新建一個鏈接抽取，如下圖所示：

②查看頁面源碼，打開瀏覽器中該頁面，點擊F12，點擊指針按鈕，如下圖所示，用指針按鈕選中所需要的文章鏈接，這時在右側出現對應源碼內容。說明城市分類鏈接在【target=_blank】節點下。

③經過觀察發現，我們要找的是【target=_blank】節點中的href，【target=_blank】節點是【class=news-list】的子節點中，名為【h3】的節點的子節點。

④具體配置腳本如下，配置好腳本后點擊右上角【保存】。

⑤.采集預覽如下所示：

如果采集預覽沒有出來，可以打開前嗅官網，咨詢技術支持。

5.數據抽取

①鏈接抽取完成進入數據頁，在原有模板基礎上，右鍵選擇【添加模板】，新添加的模板，右鍵【添加數據抽取】。

②此時要完成數據建表的工作：選擇【數據建表】，點擊【采集數據表結構】中的【+】，即可添加數據表，名稱可以自定義。

③數據表配置完成，選擇【數據抽取】右側數據屬性配置，表單選擇剛建立的“微信公眾文章”數據表，則可看到表單中的字段在右側顯示。

④需要配置哪一個字段，點擊該字段，在右側字段屬性中配置即可，選擇腳本配置的字段，在腳本窗口中進行代碼配置。

id字段：主鍵字段，采集內容選擇【主鍵】-【網頁主鍵】，主鍵為當前網頁的MD5值。

title字段：腳本如下所示

content字段：

瀏覽器打開文章頁面，查看頁面源碼，打開瀏覽器中該頁面，點擊F12，點擊指針按鈕，如下圖所示，用指針按鈕選中文章正文，這時在右側出現對應源碼內容。說明城市分類鏈接在【class=rich_media_wrp】的節點下。

用腳本表示為：

keywords字段：關鍵詞字段，該字段是用腳本處理的，由于關鍵詞字段僅是頻道腳本中的局部變量，且后期頁面均沒有出現，所以需要將關鍵詞字段賦值在全局變量中，才能在數據抽取時將關鍵詞字段提取出來，此處將其賦值與全局變量title。

同理，數據表中需要采集當前數據在第幾頁出現，而頁面數據同樣為翻頁模板中的局部變量，后面模板無法提取，所以需要將當前翻頁腳本中的頁數記錄在全局變量中，同樣將頁數記錄在title中以“#”與關鍵詞分隔。

當前數據出現在某頁第幾行，頁碼已經記錄在全局變量title中，鏈接抽取中當前鏈接行數也是唯一出現的局部變量，同樣需要記錄才能傳值，于是將行數也賦值在title中以“*”與頁碼分隔。

所以最終記錄在title中的值包含以下部分：

對于keywords字段來說，取出全局變量title中“@”左邊部分即可。

page字段：頁碼，同keywords字段，取全局變量title中“@”和“#”中間部分。

raw字段：行數，同keywords字段，取全局變量title中“#”和“*”中間部分。

gettime字段：網頁采集時間，采集內容選擇【時間信息】-【網頁獲取時間】

url字段：網頁地址，采集內容選擇【網頁信息】-【網頁地址】

web字段：網站名，腳本返回“微信公眾號”。

author字段：查看頁面源碼，打開瀏覽器中該頁面，點擊F12，點擊指針按鈕，如下圖所示，用指針按鈕選中作者，這時在右側出現對應源碼內容。說明城市分類鏈接在【id=js_name】的節點下。

temp_name字段：模板名稱，采集內容選擇【采集任務信息】-【任務名稱】

腳本如下圖所示:

⑤以上完成全部字段配置，效果預覽如下：

如果采集預覽有字段顯示異常，可以將爬蟲中的模擬瀏覽器版本設置為：IE瀏覽器9，如下圖所示，之后再嘗試。

如果采集預覽異常，可打開前嗅官網，咨詢技術支持。

三.采集步驟

模板配置完成，采集預覽沒問題后，可進行數據采集。

①首先要建立采集數據表：

選擇【數據建表】，點擊【表單列表】中該模板的表單，在【關聯數據表】中選擇【創建】，表名稱自定義，這里命名為wenzhang（注意命名不能用數字和特殊符號），點擊【確定】。

創建完成，勾選數據表。

②選擇【數據采集】，勾選任務名稱，點擊【開始采集】，則正式開始采集。

③可以在【數據瀏覽】中，選擇數據表查看采集數據，并可以導出數據。

四.課后回顧

GetSearch()：返回關鍵詞列表中的關鍵詞。

Search()：反復調用來遍歷關鍵詞列表。

FindClass(class名，標簽類型，開始查找結點)：當符合條件的class名稱唯一時，使用class名來查找結點。

FindName(標簽名,開始查找結點)：當查找范圍內，符合條件的數據標簽唯一時，可以使用標簽名稱查找標簽結點。

GetTextAll(需要獲取文本的結點,使用的字符編碼)：獲取該html標簽節點及所有子節點的可見文本。

Child：孩子頻道節點。

StdUrl(base,strUrl)：鏈接地址絕對轉化，base表示基鏈接地址，strUrl表示待轉化鏈接地址。

Right(flag)：返回字符串右邊的字符串，flag表示所取長度或起始字符(串)。

Left(flag)：返回字符串右邊的字符串，flag表示所取長度或起始字符(串)

Middle(pos,len)：返回字符串的中間字符串，pos表示起始位置或起始字符(串)，len表示所取長度或終止字符(串)。

上一篇css中怎么將盒子元素外邊為0

下一篇BAT的前端工程師對算法有怎樣的要求

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網站導航

網站導航

網站分類

微信公眾號文章怎么采集

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網站導航

網站導航

網站分類

微信公眾號文章怎么采集

相關文章