如何使用爬蟲抓取數據?
第一步需要做的就是通過當前頁面的url連接獲取到當前頁面的HTML代碼。
然后我們想要的所有數據都在爬下來的HTML代碼中了,接下來要做的就是解析這段代碼,目的是方便我們快速定位其中的內容信息。
解析完代碼后我們就可以進行內容定位了。
首先我們要借助瀏覽器的頁面“查看器”來定位目標內容。
在目標頁面空白處,“右鍵”選擇“檢查元素”。
點擊彈出的界面“左上角按鈕”。
然后就可以用鼠標去選擇你想要定位的頁面內容了。
“鼠標”單擊目標內容,發現“查看器”自動定位到相關“HTML代碼”。
輸出找到的標簽li的數目,一致!
然后我們要分析整個“li”,他在頁面中表示的就是一個文章展示區域。
在瀏覽器的“查看器”中先后定位到標題的位置和超鏈接的位置,發現他們都在一個a標簽中,我們的任務就是根據li標簽獲取a標簽就好啦。
注意這里返回的url信息和頁面顯示的不一致,需要手動添加前綴。
至此一個簡單的爬蟲就完成啦