搜索引擎是如何工作的?
俗話說:“生活給您疑問時,搜索引擎就有答案。”這不是沒有道理的。尋找附近最好的餐廳?哪里有售賣衣服的商店?所有搜索引擎一直都在提供所有答案。由于它們對日常生活的影響,因此它們在什么生活中發揮了巨大作用。
互聯網是一個知識的海洋,蔚藍的海面下有無數的“寶藏”,如何才能知道大海中有什么?怎么才能在大海中精確找尋到自己想要的東西?搜索引擎可以幫助人們輕松實現這一夢想。使用搜索引擎的人都是出于“尋找”的目的,他們通常在尋找答案,或者至少在尋找決策依據。搜索引擎使此信息更易于查找,通過輸入希望獲取信息的關鍵字,搜索引擎可以幫助人們快速、精準的得到近似的信息,運行搜索后,您會看到與搜索字詞匹配的相關網站的列表。這些通常稱為搜索結果。如果您看到一個有趣的網站,則可以單擊一個鏈接來打開它。如果網站沒有您所需的內容,則只需返回結果頁面以查找更多選項。
搜索引擎對于獲取許多我們不知道的信息很有用,搜索引擎的最終目的是:以最有用的格式、最高的效率、最快的時間為搜索者的問題提供最有用的答案。
什么是搜索引擎?搜索引擎是一種在線工具,可以根據互聯網用戶提交的搜索查詢(關鍵字)在其數據庫中搜索結果。結果通常是語義上與搜索查詢匹配的網站。搜索引擎在其數據庫中找到結果,對其進行排序,并根據搜索算法列出與用戶嘗試查找的內容最匹配的結果列表,此列表通常稱為搜索引擎結果頁面。搜索引擎主要由兩部分組成:信息數據庫及算法(如何計算要返回給定查詢并對其進行排名的方法)。對于像Google這樣的網絡搜索引擎而言,數據庫由數萬億個網頁組成,并且算法會考慮數百種因素以提供最相關的結果。在搜索方法和共享服務中,有四種類型的搜索引擎:使用Web搜尋器的系統、由人操作的系統、混合系統和元系統。搜索系統架構通常包括:
搜索機器人:它從互聯網站點或其他文檔中收集信息;索引器:提供對存儲信息的快速搜索;搜索引擎:用于用戶體驗的圖形界面。如今的搜索引擎比以往任何時候都更加智能,它們使用機器學習來幫助處理和排名信息,并且能夠聽懂自然的人類語音。但是,互聯網并非總是那么容易導航!曾經有一段時間,您必須知道網站標題的確切用語才能找到它,搜索結果中充斥著無效的垃圾,要使搜索引擎將新內容編入索引,可能需要花費數周的時間才能完成。搜索引擎肯定發生了變化!
搜索引擎的歷史和演變。搜索引擎的概念可以追溯到1945年,1945年7月范內瓦爾·布什博士在《大西洋》上發表了一篇文章上,首次指出了對搜索引擎的需求,其中強調了對所有知識進行廣泛索引的必要性:“記錄的實際用途,如果要對科學有用,就必須對其進行連續擴展,并且必須將其存儲,我們獲取記錄的能力不佳很大程度上是由于索引系統的人為造成的。人類的思想不會以這種方式起作用,而是通過聯想來運作。”
幾十年后,大學生和電氣工程師試圖使這種索引成為現實。Archie的發展是1990年創建的第一個搜索引擎,旨在在文件傳輸協議站點上搜索和存儲目錄列表;1994年由斯坦福大學的楊致遠和大衛·費羅倆人創立,成為第一個網絡門戶和搜索引擎——雅虎;1996由斯坦福大學的學生拉里·佩奇和謝爾蓋·布林創建了一個搜索引擎,該引擎將根據鏈接到該頁面的其他網站的數量對網站進行排名,這就是Google;2000年李彥宏創建了百度,目前是中國的主要搜索引擎之一。
現代搜索引擎令人難以置信,復雜的算法使搜索引擎能夠進行搜索查詢并返回通常非常準確的結果,從而在巨大的信息數據挖掘中為用戶提供有價值的信息。
搜索引擎的工作原理:基礎知識“搜索引擎”是幾種相互關聯的機制,這些機制可以根據在搜索欄中輸入的文字一起識別網頁內容(圖像、視頻、網站頁面等)。網站所有者使用搜索引擎優化來提高其網站上的內容出現在搜索結果中的機會。搜索引擎使用三種基本機制:
(1)網絡搜尋器:不斷瀏覽網絡以查找新頁面的漫游器。爬蟲程序收集正確索引頁面所需的信息,并使用超鏈接跳至其他頁面并對其進行索引。
(2)搜索索引:在線所有網頁的記錄,其組織方式允許關鍵字詞和頁面內容之間建立關聯。搜索引擎還具有對索引中的內容質量進行評級的方法。
(3)搜索算法:對網頁質量進行評級,計算該頁面與搜索字詞的相關程度并確定結果如何根據質量和受歡迎程度進行排名的計算。
互聯網搜索引擎是網絡上的特殊站點,旨在幫助人們查找存儲在其他站點上的信息。各種搜索引擎的工作方式有所不同,但是它們都執行三個基本任務:
他們根據重要單詞搜索互聯網或選擇互聯網的一部分;他們會保留所找到的單詞以及在哪里找到它們的索引;它們允許用戶查找在該索引中找到的單詞或單詞組合。關于引擎算法。發現內容并為其編制索引僅僅是這一切的開始。搜索引擎還需要一種在用戶執行搜索時對匹配結果進行排名的方法——這是搜索引擎算法的工作。在Google、Yahoo和百度等搜索引擎中,有不同的搜索引擎提供商,它們的功能基于各自的算法而有所不同。每個搜索引擎都有用于對網頁進行排名的獨特算法。搜索引擎算法是一種獨特的公式,用于確定如何在搜索引擎結果頁面中對網站進行排序。它是每個搜索引擎的商標,因此它是秘密的。該算法是各種排名因素的混合,會發現許多文章涉及“真正的”搜索引擎的排名因素。事實是,即使知道這些因素是什么,也不會知道它們的確切權重。在所有搜索引擎中最重要的排名因素應該是相關性。搜索引擎的主要目標是找到互聯網用戶正在尋找的東西。最主要的排名因素是:
網站/內容相關性反向鏈接的強度和相關性搜索引擎試圖為每個用戶提供最有用的結果,以保持大量用戶一次又一次地返回。這具有商業意義,因為大多數搜索引擎都是通過廣告賺錢的。例如谷歌在2019年創造了令人印象深刻的1200億美元廣告收益。
搜索引擎的工作方式:爬取、建立索引和排名從外部看,搜索引擎看起來很簡單。鍵入一個關鍵字,將獲得相關頁面的列表。但是,這種看似簡單的互換需要在后臺進行大量的計算工作。艱苦的工作開始于進行搜索的方式,搜索引擎全天候工作,從全球網站上收集信息并組織這些信息,早期的搜索引擎擁有數十萬個頁面和文檔的索引,每天可能收到一到兩千次查詢。如今,頂級搜索引擎將為數億個頁面建立索引,并且每天響應數以千萬計的查詢。搜索引擎的工作方式可能有所不同,但基本原理保持不變,這是一個三步過程搜尋爬取、索引編制、然后使用搜索算法對其進行排名。
1.爬取。搜索引擎依靠網絡爬蟲(自動腳本)在網上搜索信息。抓取工具從網站列表開始。算法(一組計算規則)自動決定要爬網的站點。該算法還規定了要爬網的頁面數和頻率。抓取工具會系統地訪問列表中的每個站點,然后通過標記進行鏈接,以跳轉到內部或外部頁面,爬蟲基于查找引用其他網站的超文本鏈接。通過解析這些鏈接,機器人可以遞歸地找到要爬網的新資源。隨著時間的進行,爬蟲會建立一個不斷擴大的相互鏈接頁面地圖。
2.索引編制。一旦機器人抓取了數據,就該建立索引了。該索引基本上是網站的在線圖書館。網站必須被索引才能顯示在搜索引擎結果頁面中。請記住,索引編制是一個恒定的過程。抓取工具會返回每個網站以檢測新數據。找到頁面后,漫游器會像瀏覽器一樣獲取(或渲染)該頁面。這意味著漫游器應該“看到”相應的內容,包括圖像、視頻或其他類型的動態頁面內容。機器人將這些內容組織成類別,包括圖像、CSS和HTML、文本和關鍵字等。此過程使搜尋器可以“了解”頁面上的內容,這是決定與頁面搜索哪個關鍵字相關的必要前提。然后,搜索引擎將這些信息存儲在一個索引中,該數據庫是一個巨大的數據庫,其中包含在被索引的每個網頁上看到的每個單詞的目錄條目。Google的索引Caffeine Index占用了大約1億千兆字節,并填滿了“服務器場”,這是全球范圍內從未關閉的數千臺計算機。
3.創建結果。在最后一步,搜索引擎對索引信息進行排序,并為每個查詢返回正確的結果。用戶提交搜索查詢后,搜索引擎就會創建結果。這是根據索引中的所有網站記錄檢查查詢的過程。基于該算法,搜索引擎將選擇最佳結果并創建一個有序列表。
搜索引擎提供了一個搜索龐大數據庫的界面,因為只是不知道所需網頁的實際網址。搜索引擎將對網站進行爬網并建立索引,并在搜索引擎的“搜索”框中觸發某些關鍵字/字符串時顯示。簡而言之,搜索引擎提供了一個簡單的界面來搜索字符串并在搜索頁面中顯示最相關的結果。
為什么搜索引擎如此重要?互聯網改變了我們的生活方式。如今,我們非常依賴互聯網來搜索我們遇到的每個問題的答案。在全球范圍內,Google多年來一直排名第一。以下是一些最受歡迎的搜索引擎的排名。
搜索引擎的重要性。生活在現代工業化社會中的普通人一天之內就會接觸到100年前一個人一年中所能看到的各種信息。其中包括廣告、報紙頭條、網站、短信、交通標志等等。注意力跨度越來越短,大多數人相信自己比以往更忙,這不足為奇。由于信息過多,幾乎不可能記住我們需要做的一切,這就是為什么我們使用工具為我們進行記憶和信息檢索。假設每個用戶平均查看兩個搜索結果頁面,每個頁面顯示10個搜索結果,那么一個月平均顯示給互聯網用戶的1280億個搜索結果,搜索引擎無處不在。搜索引擎的目標是向用戶提供搜索結果,從而在高質量的網站上提供相關信息。
搜索引擎之所以重要,是因為它們越來越多地確定有關客戶在線訪問的品牌、品和服務的信息。因為它在廣播媒體中有很強的影響力,因此已經成為一種營銷必需品。隨著消費者和組織變得越來越依賴他們來尋找所需的商品、服務和供應商,搜索引擎對現代企業的重要性只會越來越高。
人工智能搜索的未來如今,搜索引擎已不再是簡單的網站索引:它們在了解用戶的需求方面正在不斷進步。他們正在通過有效地向用戶提供他們所需要的東西來重新定位自己,使其成為“答案引擎”,而不僅僅是“搜索引擎”。人工智能將通過識別與每個查詢相關的含義來幫助搜索引擎理解人類的自然語言。總的來說,我相信搜尋的未來將在聲音、無處不在的設備、商業三個關鍵領域中感受到。
先進的人工智能、機器學習和移動應用的興起相結合,從根本上改變了消費者對搜索功能的期望,而搜索也會帶給用戶以不一樣的體驗。