首先聲明一點,業界一般都是用pyhon去做爬蟲。當然用java語言開發的很有很多
一、nutch
大名鼎鼎的DougCutting發起的爬蟲項目,Apache下頂級的項目,是一個開源的網絡爬蟲,采用MapReduce分布式爬取和解析網頁信息。
github地址:https://github.com/apache/nutch,上面附有官方地址。官方:
二、Heritrix
java開發的開源Web爬蟲系統,用來獲取完整的、精確的站點內容的深度復制,擴展性強,功能齊全,文檔完整。
github地址:https://github.com/internetarchive/heritrix3,里面包含了文檔等信息。
三、Gecco
輕量、易用的網絡爬蟲框架,整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等優秀框架。有優秀的可擴展性,框架基于開閉原則進行設計,對修改關閉、對擴展開放。
github地址:https://github.com/xtuhcy/gecco,內含官網地址。
四、crawler4j
是一個開源的Java類庫提供一個用于抓取Web頁面的簡單接口。簡單易于使用,支持多線程、支持代理、過濾重復URL等功能。可以在幾分鐘內設置一個多線程的網絡爬蟲。
github地址:https://github.com/yasserg/crawler4j,內含使用文檔。
還有很多其他的java優秀爬蟲項目,就不一一說來了,如WebCollector、WebMagic、Spiderman、SeimiCrawler一大堆的。另外實用就好,沒必要全部去了解。