欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

GitHub上有哪些優秀的Java爬蟲項目

錢琪琛2年前19瀏覽0評論

GitHub上有哪些優秀的Java爬蟲項目?

首先聲明一點,業界一般都是用pyhon去做爬蟲。當然用java語言開發的很有很多

一、nutch

大名鼎鼎的Doug Cutting發起的爬蟲項目,Apache下頂級的項目,是一個開源的網絡爬蟲,采用MapReduce分布式爬取和解析網頁信息。

github地址:https://github.com/apache/nutch,上面附有官方地址。官方:

二、Heritrix

java開發的開源Web爬蟲系統,用來獲取完整的、精確的站點內容的深度復制,擴展性強,功能齊全,文檔完整。

github地址:https://github.com/internetarchive/heritrix3,里面包含了文檔等信息。

三、Gecco

輕量、易用的網絡爬蟲框架,整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等優秀框架。有優秀的可擴展性,框架基于開閉原則進行設計,對修改關閉、對擴展開放。

github地址:https://github.com/xtuhcy/gecco,內含官網地址。

四、crawler4j

是一個開源的Java類庫提供一個用于抓取Web頁面的簡單接口。簡單易于使用,支持多線程、支持代理、過濾重復URL等功能。可以在幾分鐘內設置一個多線程的網絡爬蟲。

github地址:https://github.com/yasserg/crawler4j,內含使用文檔。

還有很多其他的java優秀爬蟲項目,就不一一說來了,如WebCollector、WebMagic、Spiderman、SeimiCrawler一大堆的。另外實用就好,沒必要全部去了解。

java web項目,GitHub上有哪些優秀的Java爬蟲項目