谷歌爬蟲主要是用C

谷歌爬蟲主要是用C？

谷歌一開始的爬蟲是用Python寫的。現在C++用起來比較方便。

谷歌創始人的論文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》：抓取Web為了擴展到數以億計的網頁，Google擁有一個快速的分布式抓取系統。單一的URL服務器提供了一些網絡爬蟲（我們通常運行大約3）的URL列表。 URLserver和抓取工具都是用Python實現的。每個爬蟲一次保持大約300個連接。這對于以足夠快的速度檢索網頁是必要的。在最高速度下，系統可以使用四個爬蟲每秒抓取超過100個網頁。這相當于每秒大約600K的數據。主要的性能壓力是DNS查找。每個爬蟲都維護一個自己的DNS緩存，因此在爬取每個文檔之前不需要執行DNS查找。數百個連接中的每一個可以處于多種不同的狀態：查找DNS，連接到主機，發送請求和接收響應。這些因素使得爬蟲成為系統的一個復雜組成部分。它使用異步IO來管理事件，以及將頁面提取從一個狀態移動到另一個狀態的多個隊列。關注：蛋殼智能工坊（原文鏈接：http://infolab.stanford.edu/pub/papers/google.pdf）

分布式爬蟲系統java,谷歌爬蟲主要是用C