php如何寫爬蟲

php如何寫爬蟲？

據(jù)我所知，很多第三庫(kù)都可以實(shí)現(xiàn)你所要求的這些php爬蟲特征。

如phpQuery，phpCrawl，phpSpider，Snoopy。

如果使用curl，也是相當(dāng)不錯(cuò)的。但你要做的事情更多。它只負(fù)責(zé)請(qǐng)求和下載，并沒(méi)有實(shí)現(xiàn)爬蟲的核心。別的事情都要自己做，至少你得先封裝一下。

如果你任務(wù)比較緊迫，建議選擇那些第三方庫(kù)，集成一下，能用先用著。

業(yè)務(wù)時(shí)間還是了解一下爬蟲的方方面面比較好。

xpath簡(jiǎn)單，拿到源碼，交給phpQuery就可以，像使用jQuery一樣，不需要正則。還有一些是需要?jiǎng)討B(tài)渲染才能拿到數(shù)據(jù)的，得用無(wú)頭瀏覽器，如phantomjs，去處理。

速度不會(huì)成為問(wèn)題，有問(wèn)題也是因?yàn)樗俣忍欤痪W(wǎng)站發(fā)覺(jué)然后屏蔽你，而不是太慢。哈哈。

個(gè)人認(rèn)為比較難的是怎么針對(duì)反爬蟲策略，怎么做全自動(dòng)化。還是建議你去看幾本關(guān)于爬蟲的書。

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站