欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

微信公眾號文章怎么采集

錢斌斌2年前23瀏覽0評論

微信公眾號文章怎么采集?

我這里正好有個教程,希望能夠幫助到你

一.場景簡介

1.場景描述:通過搜狗采集微信公眾號的文章

2.入口網址:https://weixin.sogou.com/weixin?type=1&s_from=input&query=%E5%89%8D%E5%97%85&ie=utf8&_sug_=n&_sug_type_=

3.采集內容:

采集搜狗微信平臺中,關鍵詞搜索出來的微信公眾號文章的標題、正文、作者、公眾號名稱等。

二.思路分析

配置思路概覽

配置步驟

1. 新建采集任務

選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

繼續勾選普通翻頁,然后點擊完成,創建成功。

2.關鍵詞配置

①在入口頁搜索不同關鍵詞,發現不同關鍵詞搜索結果的鏈接,只更換了圖中紅框部分,而紅框部分正是經過轉碼后的關鍵詞,于是得出關鍵詞鏈接的拼接規則為:

https://weixin.sogou.com/weixin?type=2&s_from=input&query=關鍵詞

②得到關鍵詞鏈接拼接規則后,開始配置關鍵詞搜索:

點擊屏幕右下角【高級配置】,將采集地址填寫到【請求地址】中,點擊【+】添加一個參數,名稱可以自定義,此項配置是用于后期腳本能將關鍵詞從關鍵詞列表中取出,配置完成點擊【確定】即可。

將參數類型選擇為檢索關鍵詞,點擊保存。

③由于本模板是以關鍵詞搜索為入口,所以在【模板抽取配置】選擇頻道(即任務名稱),選擇【腳本窗口】,將關鍵詞搜索配置在頻道處即可。

④具體配置腳本如下:

添加一個或多個關鍵詞,并保存,如下圖所示。(多個關鍵詞用英文;隔開)

⑤效果預覽:

在【關鍵詞列表】中填寫關鍵詞,點擊【保存】,點擊【采集預覽】,即可看到配置效果。

如果采集預覽異常,可打開前嗅官網,咨詢技術支持。

3.翻頁配置

關鍵詞配置完成,下一步是獲取關鍵詞搜索結果中的全部翻頁鏈接。

①同樣選擇【腳本窗口】,配置翻頁腳本。

②對關鍵詞搜索出的網頁翻頁,觀察網頁地址的變化。

https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8 第二頁

https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=3&ie=utf8 第三頁

發現翻頁鏈接是在原地址中增加了“&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8”部分,隨著頁碼的改變,僅有page參數的值在變化。page為頁碼的配置參數,其它不變部分,直接拼接在鏈接中即可。

③具體配置腳本如下:

④效果預覽:

如果采集預覽異常,可打開前嗅官網,咨詢技術支持。

4.鏈接抽取

這一步是在獲取的翻頁鏈接中,提取每頁全部微信文章的鏈接:

①在原有模板基礎上,右鍵選擇【添加模板】,并新建一個鏈接抽取,如下圖所示:

②查看頁面源碼,打開瀏覽器中該頁面,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中所需要的文章鏈接,這時在右側出現對應源碼內容。說明城市分類鏈接在【target=_blank】節點下。

③經過觀察發現,我們要找的是【target=_blank】節點中的href,【target=_blank】節點是【class=news-list】的子節點中,名為【h3】的節點的子節點。

④具體配置腳本如下,配置好腳本后點擊右上角【保存】。

⑤.采集預覽如下所示:

如果采集預覽沒有出來,可以打開前嗅官網,咨詢技術支持。

5.數據抽取

①鏈接抽取完成進入數據頁,在原有模板基礎上,右鍵選擇【添加模板】,新添加的模板,右鍵【添加數據抽取】。

②此時要完成數據建表的工作:選擇【數據建表】,點擊【采集數據表結構】中的【+】,即可添加數據表,名稱可以自定義。

③數據表配置完成,選擇【數據抽取】右側數據屬性配置,表單選擇剛建立的“微信公眾文章”數據表,則可看到表單中的字段在右側顯示。

④需要配置哪一個字段,點擊該字段,在右側字段屬性中配置即可,選擇腳本配置的字段,在腳本窗口中進行代碼配置。

id字段:主鍵字段,采集內容選擇【主鍵】-【網頁主鍵】,主鍵為當前網頁的MD5值。

title字段:腳本如下所示

content字段:

瀏覽器打開文章頁面,查看頁面源碼,打開瀏覽器中該頁面,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中文章正文,這時在右側出現對應源碼內容。說明城市分類鏈接在【class=rich_media_wrp】的節點下。

用腳本表示為:

keywords字段:關鍵詞字段,該字段是用腳本處理的,由于關鍵詞字段僅是頻道腳本中的局部變量,且后期頁面均沒有出現,所以需要將關鍵詞字段賦值在全局變量中,才能在數據抽取時將關鍵詞字段提取出來,此處將其賦值與全局變量title。

同理,數據表中需要采集當前數據在第幾頁出現,而頁面數據同樣為翻頁模板中的局部變量,后面模板無法提取,所以需要將當前翻頁腳本中的頁數記錄在全局變量中,同樣將頁數記錄在title中以“#”與關鍵詞分隔。

當前數據出現在某頁第幾行,頁碼已經記錄在全局變量title中,鏈接抽取中當前鏈接行數也是唯一出現的局部變量,同樣需要記錄才能傳值,于是將行數也賦值在title中以“*”與頁碼分隔。

所以最終記錄在title中的值包含以下部分:

對于keywords字段來說,取出全局變量title中“@”左邊部分即可。

page字段:頁碼,同keywords字段,取全局變量title中“@”和“#”中間部分。

raw字段:行數,同keywords字段,取全局變量title中“#”和“*”中間部分。

gettime字段:網頁采集時間,采集內容選擇【時間信息】-【網頁獲取時間】

url字段:網頁地址,采集內容選擇【網頁信息】-【網頁地址】

web字段:網站名,腳本返回“微信公眾號”。

author字段:查看頁面源碼,打開瀏覽器中該頁面,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中作者,這時在右側出現對應源碼內容。說明城市分類鏈接在【id=js_name】的節點下。

temp_name字段:模板名稱,采集內容選擇【采集任務信息】-【任務名稱】

腳本如下圖所示:

⑤以上完成全部字段配置,效果預覽如下:

如果采集預覽有字段顯示異常,可以將爬蟲中的模擬瀏覽器版本設置為:IE瀏覽器9,如下圖所示,之后再嘗試。

如果采集預覽異常,可打開前嗅官網,咨詢技術支持。

三.采集步驟

模板配置完成,采集預覽沒問題后,可進行數據采集。

①首先要建立采集數據表:

選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為wenzhang(注意命名不能用數字和特殊符號),點擊【確定】。

創建完成,勾選數據表。

②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

③可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。

四.課后回顧

GetSearch():返回關鍵詞列表中的關鍵詞。

Search():反復調用來遍歷關鍵詞列表。

FindClass(class名,標簽類型,開始查找結點):當符合條件的class名稱唯一時,使用class名來查找結點。

FindName(標簽名,開始查找結點):當查找范圍內,符合條件的數據標簽唯一時,可以使用標簽名稱查找標簽結點。

GetTextAll(需要獲取文本的結點,使用的字符編碼):獲取該html標簽節點及所有子節點的可見文本。

Child:孩子頻道節點。

StdUrl(base,strUrl):鏈接地址絕對轉化,base表示基鏈接地址,strUrl表示待轉化鏈接地址。

Right(flag):返回字符串右邊的字符串,flag表示所取長度或起始字符(串)。

Left(flag):返回字符串右邊的字符串,flag表示所取長度或起始字符(串)

Middle(pos,len):返回字符串的中間字符串,pos表示起始位置或起始字符(串),len表示所取長度或終止字符(串)。