網(wǎng)站導(dǎo)航

scrapy怎么實(shí)現(xiàn)重復(fù)或者定時(shí)采集

scrapy怎么實(shí)現(xiàn)重復(fù)或者定時(shí)采集？

一次讀完是最好的辦法，控制爬取速度就行。我不知道你用的什么代理，你可以試試我寫的免費(fèi)代理服務(wù)器，可以在本地源源不斷地提供可用代理。

如果要循環(huán)執(zhí)行，也有幾種方法，你寫的循環(huán)執(zhí)行Scrapy-crawl命令就可以，但這樣是很笨的，因?yàn)槊看味家貑⑦M(jìn)程。

比較好的選擇是使用scrapy提供的內(nèi)部機(jī)制，比如reactor+CrawlerRunner，這樣你可以在外部對(duì)爬蟲進(jìn)行控制，增加你想要的任何爬取條件，在同一個(gè)線程里重復(fù)啟動(dòng)爬蟲，爬取結(jié)束后干掉reactor即可。具體的做法，Scrapy的官方文檔里有介紹，循環(huán)條件你要自己寫。

我上面貼的代理服務(wù)器，將Scrapy底層的reactor運(yùn)行在Tornado的event loop之上，在需要的時(shí)候調(diào)用各個(gè)爬蟲，也符合你的需要，你可以研究一下。

另外提供一個(gè)反面教材，也是我自己以前寫的，用Python腳本定時(shí)執(zhí)行crapy-crawl命令，你也可以參考一下。

java延時(shí)線程,scrapy怎么實(shí)現(xiàn)重復(fù)或者定時(shí)采集