搜索引擎爬蟲在不知道域名的情況下如何搜索到網站

搜索引擎爬蟲在不知道域名的情況下如何搜索到網站？

這個問題初看答案是不可能的，不知道域名怎么爬呀，那我們先來分析下，搜索引擎是怎么爬取數據的。

首先，我們講下正常的爬取。

一般，你的網站想要被搜索引擎錄入，你就會在網站跟目錄，放一個robot.txt文件，有這個文件，就相當于在飯店的一個清單，上面列出了你想要給搜索引擎錄入的一些目錄，你也可以說，哪些目錄不能檢索，搜索引擎就不會去檢索這些目錄了，文件格式可以看下示例

############

User-agent: Googlebot

Disallow: /

Crawl-delay: 5

Disallow: /bin/

Disallow: /tmp/

Sitemap: http://domain.com/sitemap.xml

############

上面這個表示，Google你就另來錄入我了，其它引擎可以，并且不要去看我的bin和tmp目錄，且檢索間隔是5s

但我怎么讓搜索引擎知道我的網址地址呢？早期，搜索引擎有提供一些入口，做為網址的錄入，站長如果想在搜索引擎上顯示自己的網站，會自己先行去錄入，這樣可以為自己的網站導入流量。現在基本上，搜索引擎會有專門的渠道獲取已經開通域名，然后統一撥測一下，就可以獲取取Robot.txt，就可以錄入網址了。

你說這世界域名千千萬，它不可能都爬一次吧，其實，這個校驗速度還是很快的，另外，別忘了，搜索引擎每天基本都要對鏈接進行維護，因為，鏈接可能存在變更和失效的情況。

當然，還有一些是通過搜索引擎的其它技術來實現的，比如在解析一個網頁時，這個網頁如果有外鏈地址的話，爬蟲會把這些URL放到URL池中，再進行深度遍歷，繼續爬取。

如果你的網站沒有域名，只有IP，那還能被錄入嗎？理論上，IPV4的最大組合是2^8^4個，再刨去10,172,198等非公用IP，總共不超過40億個，看起來很多，但對計算機來說，并不多。不過，這樣檢索非常的消耗資源，一般是不考慮的。

所以說，即使搜索引擎爬蟲不知道域名，也是可以通過窮舉法來搜索的，但其實不需要這么麻煩，通過注冊局的數據，完全可以知道每天新增多少域名，減少多少域名，再進行遍歷一次，查找robot.txt，就比較簡單了。

當然，也還是有引擎搜索不到的。移動互聯網的App時代，就創造了這種信息孤島，他們已經不靠搜索引擎引流，所以就不在乎搜索引擎是否能搜索到他們。

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站