當(dāng)我們從一個網(wǎng)站中獲取信息時,其中最常見的問題就是要忽略一些HTML標(biāo)簽。例如,如果我們想要獲取一個網(wǎng)站上的文本,但是不想要帶有換行(
)標(biāo)簽,該怎么做呢?這時,我們就需要用到CSS爬蟲忽略br。
// CSS樣式 br { display:none; }
上面的代碼就是告訴爬蟲,將所有的br標(biāo)簽都隱藏起來,不要顯示出來。這樣在獲取網(wǎng)站上的文本時,就可以忽略掉所有的換行(
)標(biāo)簽。
另外,我們也可以使用JavaScript來實現(xiàn)這個功能。
// JavaScript代碼 var elements = document.getElementsByTagName("br"); for (var i = 0; i< elements.length; i++) { elements[i].parentNode.removeChild(elements[i]); }
上面的代碼就是將所有的br標(biāo)簽都移除掉。這種方法雖然也可以實現(xiàn)忽略br標(biāo)簽的功能,但是對于一些需要保留換行的網(wǎng)站,就不適用了。
總之,在爬蟲編寫時,我們需要根據(jù)具體情況選擇不同的方法來實現(xiàn)忽略HTML標(biāo)簽的功能。
下一篇css物體收縮