網絡爬蟲采用的是哪種算法策略

網絡爬蟲采用的是哪種算法策略？

基于網頁內容的分析算法指的是利用網頁內容（文本、數據等資源）特征進行的網頁評價。網頁的內容從原來的以超文本為主，發展到后來動態頁面（或稱為Hidden Web）數據為主，后者的數據量約為直接可見頁面數據（PIW，Publicly Indexable Web）的400~500倍。

另一方面，多媒體數據、Web Service等各種網絡資源形式也日益豐富。因此，基于網頁內容的分析算法也從原來的較為單純的文本檢索方法，發展為涵蓋網頁數據抽取、機器學習、數據挖掘、語義理解等多種方法的綜合應用。本節根據網頁數據形式的不同，將基于網頁內容的分析算法，歸納以下三類：