谷歌爬蟲主要是用C?
谷歌一開始的爬蟲是用Python寫的。現在C++用起來比較方便。
谷歌創始人的論文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》:抓取Web為了擴展到數以億計的網頁,Google擁有一個快速的分布式抓取系統。單一的URL服務器提供了一些網絡爬蟲(我們通常運行大約3)的URL列表。 URLserver和抓取工具都是用Python實現的。每個爬蟲一次保持大約300個連接。這對于以足夠快的速度檢索網頁是必要的。在最高速度下,系統可以使用四個爬蟲每秒抓取超過100個網頁。這相當于每秒大約600K的數據。主要的性能壓力是DNS查找。每個爬蟲都維護一個自己的DNS緩存,因此在爬取每個文檔之前不需要執行DNS查找。數百個連接中的每一個可以處于多種不同的狀態:查找DNS,連接到主機,發送請求和接收響應。這些因素使得爬蟲成為系統的一個復雜組成部分。它使用異步IO來管理事件,以及將頁面提取從一個狀態移動到另一個狀態的多個隊列。關注:蛋殼智能工坊(原文鏈接:http://infolab.stanford.edu/pub/papers/google.pdf)
上一篇亞馬遜的盈利模式是怎樣的
下一篇沒有錢有多可悲