爬蟲拿到數據違法嗎?
網絡爬蟲涉及的法律問題可從信息層、策略層、數據層進行分析。在信息層,當抓取到具有著作權、個人信息等內容時,可能侵犯知識產權、人格權等法律法規;在策略層,當爬蟲技術涉及突破、繞開反爬蟲策略、協議時,可能犯有提供侵入非法控制計算機信息系統程序工具罪或破壞計算機信息系統罪;在數據層,當爬蟲活動的關聯行為涉及破解客戶端、加密算法等,可能犯有非法獲取計算機信息系統數據罪等。
一般爬蟲界有一個默認協議《Robots協議》(也稱為爬蟲協議、機器人協議等),全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol)。一般網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。是網絡資源提供者與搜索引擎之間的道德約定。
《Robots協議》的實施主要依賴一個文件:
robots.txt,
網站會將該文件置于根目錄下。舉個例子,當爬蟲訪問一個網站(比如http://x.y.z)時,首先會檢查該網站中是否存在http://x.y.z/robots.txt
這個文件,如果爬蟲找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。但正如上文所講,該協議只是“道德約定”,并沒有法律保障。也并不是遵循了這個協議就一定能避開一開始所講的法律問題。
因此我建議使用爬蟲以圖商業目的的朋友首先要識別數據性質,是公開數據、半公開數據還是內部系統數據,對于內部系統數據,嚴格禁止侵入;爬取數據時避免獲取個人信息、明確的著作權作品、商業秘密等;限定數據的應用場景,如遇涉及侵害他人的商業利益和競爭秩序的場景,要思之再三再做決策。
最后再談談如何避免踩雷。第一點,同業競爭者的數據最好不要爬,官司很容易上身;第二點,被公司定性為有商業價值的數據不要爬,有個案例是百度爬了美團的有價數據,結果被告得很慘;第三點,爬蟲機器人千萬別擾亂對方的正常運營,萬一搞崩了別人的網站,后果很嚴重。
法律參考:
《刑法》第285條,非法獲取計算機信息系統數據罪。最高處七年有期徒刑。
《刑法》第286條,破壞計算機信息系統罪。最高處五年以上。比如為了抓取數據,破解登陸密碼,反編譯APP。
《網絡安全法》,倒賣隱私數據鏈條上的一環。你把抓取的數據倒賣給壞人,壞人拿數據做了壞事,你就是這其中一環。