欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

scrapy怎么實(shí)現(xiàn)重復(fù)或者定時(shí)采集

scrapy怎么實(shí)現(xiàn)重復(fù)或者定時(shí)采集?

一次讀完是最好的辦法,控制爬取速度就行。我不知道你用的什么代理,你可以試試我寫的免費(fèi)代理服務(wù)器,可以在本地源源不斷地提供可用代理。

如果要循環(huán)執(zhí)行,也有幾種方法,你寫的循環(huán)執(zhí)行Scrapy-crawl命令就可以,但這樣是很笨的,因?yàn)槊看味家貑⑦M(jìn)程。

比較好的選擇是使用scrapy提供的內(nèi)部機(jī)制,比如reactor+CrawlerRunner,這樣你可以在外部對(duì)爬蟲進(jìn)行控制,增加你想要的任何爬取條件,在同一個(gè)線程里重復(fù)啟動(dòng)爬蟲,爬取結(jié)束后干掉reactor即可。具體的做法,Scrapy的官方文檔里有介紹,循環(huán)條件你要自己寫。

我上面貼的代理服務(wù)器,將Scrapy底層的reactor運(yùn)行在Tornado的event loop之上,在需要的時(shí)候調(diào)用各個(gè)爬蟲,也符合你的需要,你可以研究一下。

另外提供一個(gè)反面教材,也是我自己以前寫的,用Python腳本定時(shí)執(zhí)行crapy-crawl命令,你也可以參考一下。

java延時(shí)線程,scrapy怎么實(shí)現(xiàn)重復(fù)或者定時(shí)采集