搜索引擎分類及特點(diǎn)分析?
1 搜索引擎的工作原理為:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)→建立索引數(shù)據(jù)庫(kù)→在索引數(shù)據(jù)庫(kù)中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。建立索引數(shù)據(jù)庫(kù)由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每1個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每1個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。
2 在索引數(shù)據(jù)庫(kù)中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。最后由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。搜索引擎按其工作方式可分為三種,全文搜索引擎,目錄搜索引擎和元搜索引擎。
3 全文搜索引擎 全文搜索引擎的代表是網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的URL開始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè),并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。所有被爬蟲抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過(guò)濾,并建立索引,以便之后的查詢和檢索;對(duì)于聚焦爬蟲來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)。
4 爬蟲設(shè)計(jì)是否合理將直接影響它訪問(wèn)Web的效率,影響搜索數(shù)據(jù)庫(kù)的質(zhì)量,另外在設(shè)計(jì)爬蟲時(shí)還必須考慮它對(duì)網(wǎng)絡(luò)和被訪問(wèn)站點(diǎn)的影響,因?yàn)榕老x一般都運(yùn)行在速度快,帶寬高的主機(jī)上,如果它快速訪問(wèn)一個(gè)速度較慢的目標(biāo)站點(diǎn),可能導(dǎo)致該站點(diǎn)出現(xiàn)阻塞。Robot應(yīng)遵守一些協(xié)議,以便被訪問(wèn)站點(diǎn)的管理員能夠確定訪問(wèn)內(nèi)容,Index是一個(gè)龐大的數(shù)據(jù)庫(kù),爬蟲提取的網(wǎng)頁(yè)將被放入到Index中建立索引,不同的搜索引擎會(huì)采取不同方式來(lái)建立索引,有的對(duì)整個(gè)HTML文件的所有單詞都建立索引,有的只分析HTML文件的標(biāo)題或前幾段內(nèi)容,還有的能處理HTML文件中的META標(biāo)記或特殊標(biāo)記。
5 目錄搜索引擎 目錄搜索引擎的數(shù)據(jù)庫(kù)是依靠專職人員建立的,這些人員在訪問(wèn)了某個(gè)Web站點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別,把站點(diǎn)URL和描述放在這個(gè)類別中,當(dāng)用戶查詢某個(gè)關(guān)鍵詞時(shí),搜索軟件只在這些描述中進(jìn)行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會(huì)將之添加到合適的類別中。
6 目錄的結(jié)構(gòu)為樹形結(jié)構(gòu),首頁(yè)提供了最基本的入口,用戶可以逐級(jí)地向下訪問(wèn),直至找到自己的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞。由于目錄式搜索引擎只在保存了對(duì)站點(diǎn)的描述中搜索,因此站點(diǎn)本身的變化不會(huì)反映到搜索結(jié)果中,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的區(qū)別。分類目錄在網(wǎng)絡(luò)推廣中的應(yīng)用主要有下列特點(diǎn)。
7 通常只能收錄網(wǎng)站首頁(yè)(或者若干頻道),而不能將大量網(wǎng)頁(yè)都提交給分類目錄;網(wǎng)站一旦被收錄將在一定時(shí)期內(nèi)保持穩(wěn)定;無(wú)法通過(guò)"搜索引擎優(yōu)化"等手段提高網(wǎng)站在分類目錄中的排名;在高質(zhì)量的分類目錄登錄,對(duì)于提高網(wǎng)站在搜索引擎檢索結(jié)果中的排名有一定價(jià)值;緊靠分類目錄通常與其他網(wǎng)站推廣手段共同使用。
8、元搜索引擎 我們可將元搜索引擎看成具有雙層客戶機(jī)/服務(wù)器結(jié)構(gòu)的系統(tǒng)。用戶向元搜索引擎發(fā)出檢索請(qǐng)求,元搜索引擎再根據(jù)該請(qǐng)求向多個(gè)搜索引擎發(fā)出實(shí)際檢索請(qǐng)求,搜索引擎執(zhí)行元搜索引擎檢索請(qǐng)求后將檢索結(jié)果以應(yīng)答形式傳送給元搜索引擎,元搜索引擎將從多個(gè)搜索引擎獲得的檢索結(jié)果經(jīng)過(guò)整理再以應(yīng)答形式傳送給實(shí)際用戶。當(dāng)然,某些元搜索引擎具有略微不同的機(jī)制。元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,將結(jié)果進(jìn)行相關(guān)處理,以整體統(tǒng)一的格式反饋給用戶。
9 它的特點(diǎn)是本身并沒有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù)。多數(shù)元搜索引擎在處理其它的搜索引擎返回結(jié)果時(shí),只提取出每個(gè)搜索引擎的結(jié)果中考前的條目,然后將這些條目合并在一起返回給用戶,元搜索引擎實(shí)現(xiàn)起比較簡(jiǎn)單,但是它也有一定的局限性,例如多數(shù)元搜索引擎都只能訪問(wèn)少數(shù)幾個(gè)搜索引擎,并且通常不支持這些搜索引擎的高級(jí)搜索功能,在處理邏輯查詢時(shí)也常常會(huì)出現(xiàn)錯(cuò)誤。在這幾種檢索工具中,目錄式搜索引擎成本高,信息t少的缺點(diǎn),但它的信息準(zhǔn)確這一優(yōu)點(diǎn)使其在一定的領(lǐng)域和時(shí)間內(nèi)仍會(huì)被使用,機(jī)器人搜索引擎是當(dāng)前各種搜索引擎的主流,但隨著網(wǎng)絡(luò)信息量的增加,單一搜索引擎已經(jīng)難已滿足要求,結(jié)合目錄式搜索引擎,機(jī)器人搜索引擎的優(yōu)勢(shì),以元搜索引擎為核心的多層代理搜索引擎是搜索引擎的發(fā)展方向。
10 搜索引擎技術(shù)功能強(qiáng)大,提供的服務(wù)也全面,它們的目標(biāo)不僅僅是提供單純的查詢功能,而是把自己發(fā)展成為用戶首選的Internet入口站點(diǎn)。目前的搜索引擎主要有幾個(gè)特點(diǎn):多樣化和個(gè)性化的服務(wù)。強(qiáng)大的查詢功能。目錄和基于Robot的搜索引擎相互結(jié)合。目前搜索引擎是網(wǎng)絡(luò)上被使用頻率最高的服務(wù)項(xiàng)目之一,隨著Internet的發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾突出。搜索結(jié)果豐富的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因?yàn)樗阉飨到y(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長(zhǎng)的視頻、音頻等多媒體信息的檢索,仍然無(wú)法實(shí)現(xiàn)。
11 搜索引擎越來(lái)越不能滿足用戶的各種信息需求,如收集的網(wǎng)頁(yè)數(shù)量和其數(shù)據(jù)庫(kù)的更新速度存在著不可調(diào)和的矛盾。用戶經(jīng)常無(wú)法打開查詢的結(jié)果。網(wǎng)絡(luò)信息時(shí)刻變動(dòng),實(shí)時(shí)搜索幾乎不可能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要部分。搜索引擎需要定期不斷地訪問(wèn)網(wǎng)絡(luò)資源。目前網(wǎng)絡(luò)帶寬不足,網(wǎng)絡(luò)速度慢,遍歷如此龐雜的網(wǎng)絡(luò)時(shí)間花費(fèi)非常龐大,這就是不能實(shí)時(shí)搜索的原因。