GitHub上有哪些優秀的Java爬蟲項目？

首先聲明一點，業界一般都是用pyhon去做爬蟲。當然用java語言開發的很有很多

大名鼎鼎的DougCutting發起的爬蟲項目，Apache下頂級的項目，是一個開源的網絡爬蟲，采用MapReduce分布式爬取和解析網頁信息。

github地址：https://github.com/apache/nutch，上面附有官方地址。官方：

java開發的開源Web爬蟲系統，用來獲取完整的、精確的站點內容的深度復制，擴展性強，功能齊全，文檔完整。

github地址：https://github.com/internetarchive/heritrix3，里面包含了文檔等信息。

輕量、易用的網絡爬蟲框架，整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等優秀框架。有優秀的可擴展性，框架基于開閉原則進行設計，對修改關閉、對擴展開放。

github地址：https://github.com/xtuhcy/gecco，內含官網地址。

是一個開源的Java類庫提供一個用于抓取Web頁面的簡單接口。簡單易于使用，支持多線程、支持代理、過濾重復URL等功能。可以在幾分鐘內設置一個多線程的網絡爬蟲。

github地址：https://github.com/yasserg/crawler4j，內含使用文檔。

還有很多其他的java優秀爬蟲項目，就不一一說來了，如WebCollector、WebMagic、Spiderman、SeimiCrawler一大堆的。另外實用就好，沒必要全部去了解。

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站