爬蟲都有什么必須用的技能呀?
第一,如果你想用Python寫爬蟲的話,Python基礎(chǔ)肯定是必不可少的
第二,適當(dāng)?shù)木W(wǎng)頁知識。因為你做爬蟲,要么是從頁面里面拿數(shù)據(jù),要么是從請求里面拿數(shù)據(jù)。從頁面拿數(shù)據(jù),就需要了解DOM樹,基本的HTML與css選擇器;如果從請求里面拿數(shù)據(jù),就需要對網(wǎng)絡(luò)有一定的了解,不說什么比較高深的授權(quán)認(rèn)證(token什么的),最起碼要懂得明文請求的一些基本知識。
第三,在基礎(chǔ)知識學(xué)得差不多了,就可以學(xué)一下scrapy了,這是一款入門非常容易的Python爬蟲框架
以上幾點,爬取一些簡單的東西已經(jīng)沒問題了。
另外,分析能力也很重要,比如要爬取一系列網(wǎng)頁的內(nèi)容,看它們有什么相同點和不同點,比如前段部分的url是相同的,只有一個參數(shù)page的變化。
如果還想深入爬蟲,可以研究怎么讓爬蟲偽裝授權(quán),自動登錄等,對一些加了權(quán)限的站點有用。
上一篇pmt函數(shù)
下一篇破解游戲違反法律嗎