火車頭采集器采到了標題沒有采到內容是怎么回事?
可能是你的方法不對,或者是采集的網站有代碼限制禁止采集,可以參考下面方法。
進入主窗口,點擊“第二步:采集內容規則”,如下圖:
創建任務之采集內容規則
這個窗口左側用來添加或編輯文章頁面相關標簽的規則,右側是用來測左側的內容規則。我們采集文章一般要采集到對方文章的標題、內容、標簽這3個,當然,如果你還需要作者等相關信息,也可以添加。這里,我只需要采集到標題、文章內容、標簽這3樣就可以了。
1、添加或編輯標題:雙擊左側的“標題”,
雙擊后會彈出如下圖窗口
然后,我們打開盧松松博客“好友分享”分類的任何一篇文章,查看其源代碼頁面,源代碼中,我們可以看到文章標題在<title>與</title>,因為我們只想取文章的標題,不想取盧松博客名,所以我們在上圖的窗口中右側中添加的是" -盧松松博客</title>”,而不是</title>。
2、添加或編輯內容標簽:雙擊“內容”,
然后在文章源代碼頁面中找到文章的內容前的唯一標簽 <dd class="con"> (如下圖),再找到文章內容結束后唯一標簽 字符 “ 相關閱讀”(因為盧松博客文章后臺都有“相關閱讀”推薦列表)。然后把它們都添加到上圖中的 1 和他2 處
這樣我們就可以采集到文章的內容。但是,文章中可能有鏈接、有框架、DIV…… 如果不想要這些,我們是可以設置的。單擊左側的“添加”——>“html標簽過濾”