欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

爬蟲提取到的數據該如何處理

錢淋西2年前76瀏覽0評論
爬蟲提取到的數據該如何處理?

一、文本存儲

二、sqlite3微型數據庫存儲

在爬蟲中一般都是在pipeline里面設置的,然后再setting里面的ITEM_PIPELINES解注釋,項目名+要開啟的管道名+在管道里新添加的類或者是說要用到的類,這里還有優先級,數字越小優先級越高

三、將數據存儲到excel表格,以豆瓣電影存儲到excel表格為例

四、mysql數據庫存儲

五、在爬蟲終端命令形式存成表格形式

scrapy crawl 爬蟲名 -o 爬蟲名.csv

六、終端命令將數據的解碼方式改成utf-8,防止中文亂碼

scrapy crawl 爬蟲名 -o 爬蟲名.json -s FEED_EXPORT_ENCORDING=UTF-8

七、將數據中的圖片存到本地文件夾

在setting里面添加

IMAGES_STORE = '***'(文件名、默認是在當前目錄的父級,在這里你也可選擇已存在文件夾的路徑)

IMAGES_URLS_FIELD = '***' (一般填寫圖片的下載路徑,在爬蟲文件中要特別注意,要傳的路徑最好帶【】是將得到的數據轉儲到items里面的時候)

將文本文件存到本地(例如小說之類)

FILES_STORES = '****' (性質和存圖片的一樣)

FILES_URLS_FIELD = '***'(同上)

原文鏈接https://blog.csdn.net/UserAgent123/article/details/81570935

可以看看這個