一、文本存儲
二、sqlite3微型數(shù)據(jù)庫存儲
在爬蟲中一般都是在pipeline里面設置的,然后再setting里面的ITEM_PIPELINES解注釋,項目名+要開啟的管道名+在管道里新添加的類或者是說要用到的類,這里還有優(yōu)先級,數(shù)字越小優(yōu)先級越高
三、將數(shù)據(jù)存儲到excel表格,以豆瓣電影存儲到excel表格為例
四、mysql數(shù)據(jù)庫存儲
五、在爬蟲終端命令形式存成表格形式
scrapycrawl爬蟲名-o爬蟲名.csv
六、終端命令將數(shù)據(jù)的解碼方式改成utf-8,防止中文亂碼
scrapycrawl爬蟲名-o爬蟲名.json-sFEED_EXPORT_ENCORDING=UTF-8
七、將數(shù)據(jù)中的圖片存到本地文件夾
在setting里面添加
IMAGES_STORE='***'(文件名、默認是在當前目錄的父級,在這里你也可選擇已存在文件夾的路徑)
IMAGES_URLS_FIELD='***'(一般填寫圖片的下載路徑,在爬蟲文件中要特別注意,要傳的路徑最好帶【】是將得到的數(shù)據(jù)轉(zhuǎn)儲到items里面的時候)
將文本文件存到本地(例如小說之類)
FILES_STORES='****'(性質(zhì)和存圖片的一樣)
FILES_URLS_FIELD='***'(同上)
原文鏈接https://blog.csdn.net/UserAgent123/article/details/81570935
可以看看這個