欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網絡爬蟲采用的是哪種算法策略

林玟書2年前19瀏覽0評論

網絡爬蟲采用的是哪種算法策略?

基于網頁內容的分析算法指的是利用網頁內容(文本、數據等資源)特征進行的網頁評價。網頁的內容從原來的以超文本為主,發展到后來動態頁面(或稱為Hidden Web)數據為主,后者的數據量約為直接可見頁面數據(PIW,Publicly Indexable Web)的400~500倍。

另一方面,多媒體數據、Web Service等各種網絡資源形式也日益豐富。因此,基于網頁內容的分析算法也從原來的較為單純的文本檢索方法,發展為涵蓋網頁數據抽取、機器學習、數據挖掘、語義理解等多種方法的綜合應用。本節根據網頁數據形式的不同,將基于網頁內容的分析算法,歸納以下三類:

第一種針對以文本和超鏈接為主的無結構或結構很簡單的網頁;

第二種針對從結構化的數據源(如RDBMS)動態生成的頁面,其數據不能直接批量訪問;

第三種針對的數據界于第一和第二類數據之間,具有較好的結構,顯示遵循一定模式或風格,且可以直接訪問。