為什么爬蟲的分頁規(guī)律不同?
嗯,這個問題問的太籠統(tǒng)了。從問題中,我可以分析出兩種問題,那就兩種都回答吧
第一種是,不同網站間頁面的分頁規(guī)律不同
首先,不管是網站,還是接口,不管是爬網頁數據,還是接口數據,這些數據都是程序員碼出來的,當然,接口定義也是程序員定的。大公司有一些比較好的規(guī)范,比如分頁,我定page,數據我定size,但并不是所有公司都一樣的,有些叫size,有些叫l(wèi)imit,有些叫offset,世界各國貨幣還都不一樣,同樣,在企業(yè)里面,不同的定義是很正常的,沒有統(tǒng)一的標準,也就是說,分頁這東西,還不至于嚴重要需要定義國標。如果是接口還好,分析完還有一些規(guī)律,而頁面呢?簡單的,也和接口一樣,放在params里面當成URL的參考,不過有些又喜歡放在路由頁面hash里面。這些也都還好,可以通過鏈接看出來,有些更過分的,直接用本地緩存或常量來存,那你就得看他代碼了。
第二種是,相同網站不同頁面的分頁規(guī)律不同
這種現在比較少,一般一個網站,如果不是多項目組的話,主程會定義統(tǒng)一的參數約定規(guī)范,如果實在有這種不同規(guī)則,那只能考慮是前期沒有制定統(tǒng)一規(guī)范,或是多團隊協(xié)作導致的。
還有一種是,為了防止非法爬蟲,對網頁代碼進行了混淆,包括整站的分頁代碼等,這目前還是可以辦到的,也是比較容易的技術。