欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

谷歌爬蟲主要是用C

林子帆2年前13瀏覽0評論

谷歌爬蟲主要是用C?

谷歌一開始的爬蟲是用Python寫的。現在C++用起來比較方便。

谷歌創始人的論文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》:抓取Web為了擴展到數以億計的網頁,Google擁有一個快速的分布式抓取系統。單一的URL服務器提供了一些網絡爬蟲(我們通常運行大約3)的URL列表。 URLserver和抓取工具都是用Python實現的。每個爬蟲一次保持大約300個連接。這對于以足夠快的速度檢索網頁是必要的。在最高速度下,系統可以使用四個爬蟲每秒抓取超過100個網頁。這相當于每秒大約600K的數據。主要的性能壓力是DNS查找。每個爬蟲都維護一個自己的DNS緩存,因此在爬取每個文檔之前不需要執行DNS查找。數百個連接中的每一個可以處于多種不同的狀態:查找DNS,連接到主機,發送請求和接收響應。這些因素使得爬蟲成為系統的一個復雜組成部分。它使用異步IO來管理事件,以及將頁面提取從一個狀態移動到另一個狀態的多個隊列。關注:蛋殼智能工坊(原文鏈接:http://infolab.stanford.edu/pub/papers/google.pdf)

分布式爬蟲系統java,谷歌爬蟲主要是用C