網(wǎng)站導(dǎo)航

搜索引擎分類及特點(diǎn)分析

搜索引擎分類及特點(diǎn)分析？

1 搜索引擎的工作原理為：從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)→建立索引數(shù)據(jù)庫(kù)→在索引數(shù)據(jù)庫(kù)中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序，自動(dòng)訪問(wèn)互聯(lián)網(wǎng)，并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè)，重復(fù)這過(guò)程，并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。建立索引數(shù)據(jù)庫(kù)由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析，提取相關(guān)網(wǎng)頁(yè)信息根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每1個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每1個(gè)關(guān)鍵詞的相關(guān)度(或重要性)，然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。

2 在索引數(shù)據(jù)庫(kù)中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后，由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。最后由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。搜索引擎按其工作方式可分為三種，全文搜索引擎，目錄搜索引擎和元搜索引擎。

3 全文搜索引擎全文搜索引擎的代表是網(wǎng)絡(luò)爬蟲，網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的URL開始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列，直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接，保留有用的鏈接并放入等待抓取的URL隊(duì)列。然后，它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)，并重復(fù)上述過(guò)程，直到達(dá)到系統(tǒng)的某一條件時(shí)停止。所有被爬蟲抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯，進(jìn)行一定的分析、過(guò)濾，并建立索引，以便之后的查詢和檢索；對(duì)于聚焦爬蟲來(lái)說(shuō)，這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)。

4 爬蟲設(shè)計(jì)是否合理將直接影響它訪問(wèn)Web的效率，影響搜索數(shù)據(jù)庫(kù)的質(zhì)量，另外在設(shè)計(jì)爬蟲時(shí)還必須考慮它對(duì)網(wǎng)絡(luò)和被訪問(wèn)站點(diǎn)的影響，因?yàn)榕老x一般都運(yùn)行在速度快，帶寬高的主機(jī)上，如果它快速訪問(wèn)一個(gè)速度較慢的目標(biāo)站點(diǎn)，可能導(dǎo)致該站點(diǎn)出現(xiàn)阻塞。Robot應(yīng)遵守一些協(xié)議，以便被訪問(wèn)站點(diǎn)的管理員能夠確定訪問(wèn)內(nèi)容，Index是一個(gè)龐大的數(shù)據(jù)庫(kù)，爬蟲提取的網(wǎng)頁(yè)將被放入到Index中建立索引，不同的搜索引擎會(huì)采取不同方式來(lái)建立索引，有的對(duì)整個(gè)HTML文件的所有單詞都建立索引，有的只分析HTML文件的標(biāo)題或前幾段內(nèi)容，還有的能處理HTML文件中的META標(biāo)記或特殊標(biāo)記。

5 目錄搜索引擎目錄搜索引擎的數(shù)據(jù)庫(kù)是依靠專職人員建立的，這些人員在訪問(wèn)了某個(gè)Web站點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述，并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別，把站點(diǎn)URL和描述放在這個(gè)類別中，當(dāng)用戶查詢某個(gè)關(guān)鍵詞時(shí)，搜索軟件只在這些描述中進(jìn)行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述，當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后，就會(huì)將之添加到合適的類別中。

6 目錄的結(jié)構(gòu)為樹形結(jié)構(gòu)，首頁(yè)提供了最基本的入口，用戶可以逐級(jí)地向下訪問(wèn)，直至找到自己的類別，另外，用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞。由于目錄式搜索引擎只在保存了對(duì)站點(diǎn)的描述中搜索，因此站點(diǎn)本身的變化不會(huì)反映到搜索結(jié)果中，這也是目錄式搜索引擎與基于Robot的搜索引擎之間的區(qū)別。分類目錄在網(wǎng)絡(luò)推廣中的應(yīng)用主要有下列特點(diǎn)。

7 通常只能收錄網(wǎng)站首頁(yè)(或者若干頻道)，而不能將大量網(wǎng)頁(yè)都提交給分類目錄；網(wǎng)站一旦被收錄將在一定時(shí)期內(nèi)保持穩(wěn)定；無(wú)法通過(guò)"搜索引擎優(yōu)化"等手段提高網(wǎng)站在分類目錄中的排名；在高質(zhì)量的分類目錄登錄，對(duì)于提高網(wǎng)站在搜索引擎檢索結(jié)果中的排名有一定價(jià)值；緊靠分類目錄通常與其他網(wǎng)站推廣手段共同使用。

8、元搜索引擎我們可將元搜索引擎看成具有雙層客戶機(jī)／服務(wù)器結(jié)構(gòu)的系統(tǒng)。用戶向元搜索引擎發(fā)出檢索請(qǐng)求，元搜索引擎再根據(jù)該請(qǐng)求向多個(gè)搜索引擎發(fā)出實(shí)際檢索請(qǐng)求，搜索引擎執(zhí)行元搜索引擎檢索請(qǐng)求后將檢索結(jié)果以應(yīng)答形式傳送給元搜索引擎，元搜索引擎將從多個(gè)搜索引擎獲得的檢索結(jié)果經(jīng)過(guò)整理再以應(yīng)答形式傳送給實(shí)際用戶。當(dāng)然，某些元搜索引擎具有略微不同的機(jī)制。元搜索引擎在接受用戶查詢請(qǐng)求時(shí)，同時(shí)在其他多個(gè)引擎上進(jìn)行搜索，將結(jié)果進(jìn)行相關(guān)處理，以整體統(tǒng)一的格式反饋給用戶。

9 它的特點(diǎn)是本身并沒有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù)。多數(shù)元搜索引擎在處理其它的搜索引擎返回結(jié)果時(shí)，只提取出每個(gè)搜索引擎的結(jié)果中考前的條目，然后將這些條目合并在一起返回給用戶，元搜索引擎實(shí)現(xiàn)起比較簡(jiǎn)單，但是它也有一定的局限性，例如多數(shù)元搜索引擎都只能訪問(wèn)少數(shù)幾個(gè)搜索引擎，并且通常不支持這些搜索引擎的高級(jí)搜索功能，在處理邏輯查詢時(shí)也常常會(huì)出現(xiàn)錯(cuò)誤。在這幾種檢索工具中，目錄式搜索引擎成本高，信息t少的缺點(diǎn)，但它的信息準(zhǔn)確這一優(yōu)點(diǎn)使其在一定的領(lǐng)域和時(shí)間內(nèi)仍會(huì)被使用，機(jī)器人搜索引擎是當(dāng)前各種搜索引擎的主流，但隨著網(wǎng)絡(luò)信息量的增加，單一搜索引擎已經(jīng)難已滿足要求，結(jié)合目錄式搜索引擎，機(jī)器人搜索引擎的優(yōu)勢(shì)，以元搜索引擎為核心的多層代理搜索引擎是搜索引擎的發(fā)展方向。

10 搜索引擎技術(shù)功能強(qiáng)大，提供的服務(wù)也全面，它們的目標(biāo)不僅僅是提供單純的查詢功能，而是把自己發(fā)展成為用戶首選的Internet入口站點(diǎn)。目前的搜索引擎主要有幾個(gè)特點(diǎn)：多樣化和個(gè)性化的服務(wù)。強(qiáng)大的查詢功能。目錄和基于Robot的搜索引擎相互結(jié)合。目前搜索引擎是網(wǎng)絡(luò)上被使用頻率最高的服務(wù)項(xiàng)目之一，隨著Internet的發(fā)展，網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾突出。搜索結(jié)果豐富的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代，因?yàn)樗阉飨到y(tǒng)的表現(xiàn)與用戶的期望值相差太大，諸如數(shù)據(jù)量高速增長(zhǎng)的視頻、音頻等多媒體信息的檢索，仍然無(wú)法實(shí)現(xiàn)。

11 搜索引擎越來(lái)越不能滿足用戶的各種信息需求，如收集的網(wǎng)頁(yè)數(shù)量和其數(shù)據(jù)庫(kù)的更新速度存在著不可調(diào)和的矛盾。用戶經(jīng)常無(wú)法打開查詢的結(jié)果。網(wǎng)絡(luò)信息時(shí)刻變動(dòng)，實(shí)時(shí)搜索幾乎不可能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要部分。搜索引擎需要定期不斷地訪問(wèn)網(wǎng)絡(luò)資源。目前網(wǎng)絡(luò)帶寬不足，網(wǎng)絡(luò)速度慢，遍歷如此龐雜的網(wǎng)絡(luò)時(shí)間花費(fèi)非常龐大，這就是不能實(shí)時(shí)搜索的原因。

列舉幾個(gè)css的選擇器,搜索引擎分類及特點(diǎn)分析

上一篇UI班的課程如何安排

下一篇HTML中的幾種特殊字符的顯示方法

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

搜索引擎分類及特點(diǎn)分析

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

搜索引擎分類及特點(diǎn)分析

相關(guān)文章