欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

搜索引擎爬蟲在不知道域名的情況下如何搜索到網站

呂致盈2年前16瀏覽0評論

搜索引擎爬蟲在不知道域名的情況下如何搜索到網站?

這個問題初看答案是不可能的,不知道域名怎么爬呀,那我們先來分析下,搜索引擎是怎么爬取數據的。

首先,我們講下正常的爬取。

一般,你的網站想要被搜索引擎錄入,你就會在網站跟目錄,放一個robot.txt文件,有這個文件,就相當于在飯店的一個清單,上面列出了你想要給搜索引擎錄入的一些目錄,你也可以說,哪些目錄不能檢索,搜索引擎就不會去檢索這些目錄了,文件格式可以看下示例

############

User-agent: Googlebot

Disallow: /

Crawl-delay: 5

Disallow: /bin/

Disallow: /tmp/

Sitemap: http://domain.com/sitemap.xml

############

上面這個表示,Google你就另來錄入我了,其它引擎可以,并且不要去看我的bin和tmp目錄,且檢索間隔是5s

但我怎么讓搜索引擎知道我的網址地址呢?早期,搜索引擎有提供一些入口,做為網址的錄入,站長如果想在搜索引擎上顯示自己的網站,會自己先行去錄入,這樣可以為自己的網站導入流量。現在基本上,搜索引擎會有專門的渠道獲取已經開通域名,然后統一撥測一下,就可以獲取取Robot.txt,就可以錄入網址了。

你說這世界域名千千萬,它不可能都爬一次吧,其實,這個校驗速度還是很快的,另外,別忘了,搜索引擎每天基本都要對鏈接進行維護,因為,鏈接可能存在變更和失效的情況。

當然,還有一些是通過搜索引擎的其它技術來實現的,比如在解析一個網頁時,這個網頁如果有外鏈地址的話,爬蟲會把這些URL放到URL池中,再進行深度遍歷,繼續爬取。

如果你的網站沒有域名,只有IP,那還能被錄入嗎?理論上,IPV4的最大組合是2^8^4個,再刨去10,172,198等非公用IP,總共不超過40億個,看起來很多,但對計算機來說,并不多。不過,這樣檢索非常的消耗資源,一般是不考慮的。

所以說,即使搜索引擎爬蟲不知道域名,也是可以通過窮舉法來搜索的,但其實不需要這么麻煩,通過注冊局的數據,完全可以知道每天新增多少域名,減少多少域名,再進行遍歷一次,查找robot.txt,就比較簡單了。

當然,也還是有引擎搜索不到的。移動互聯網的App時代,就創造了這種信息孤島,他們已經不靠搜索引擎引流,所以就不在乎搜索引擎是否能搜索到他們。