網(wǎng)絡(luò)爬蟲(chóng)涉及的法律問(wèn)題可從信息層、策略層、數(shù)據(jù)層進(jìn)行分析。在信息層,當(dāng)抓取到具有著作權(quán)、個(gè)人信息等內(nèi)容時(shí),可能侵犯知識(shí)產(chǎn)權(quán)、人格權(quán)等法律法規(guī);在策略層,當(dāng)爬蟲(chóng)技術(shù)涉及突破、繞開(kāi)反爬蟲(chóng)策略、協(xié)議時(shí),可能犯有提供侵入非法控制計(jì)算機(jī)信息系統(tǒng)程序工具罪或破壞計(jì)算機(jī)信息系統(tǒng)罪;在數(shù)據(jù)層,當(dāng)爬蟲(chóng)活動(dòng)的關(guān)聯(lián)行為涉及破解客戶(hù)端、加密算法等,可能犯有非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪等。
一般爬蟲(chóng)界有一個(gè)默認(rèn)協(xié)議《Robots協(xié)議》(也稱(chēng)為爬蟲(chóng)協(xié)議、機(jī)器人協(xié)議等),全稱(chēng)是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(RobotsExclusionProtocol)。一般網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。是網(wǎng)絡(luò)資源提供者與搜索引擎之間的道德約定。
《Robots協(xié)議》的實(shí)施主要依賴(lài)一個(gè)文件:
robots.txt,
網(wǎng)站會(huì)將該文件置于根目錄下。舉個(gè)例子,當(dāng)爬蟲(chóng)訪(fǎng)問(wèn)一個(gè)網(wǎng)站(比如http://x.y.z)時(shí),首先會(huì)檢查該網(wǎng)站中是否存在http://x.y.z/robots.txt
這個(gè)文件,如果爬蟲(chóng)找到這個(gè)文件,它就會(huì)根據(jù)這個(gè)文件的內(nèi)容,來(lái)確定它訪(fǎng)問(wèn)權(quán)限的范圍。但正如上文所講,該協(xié)議只是“道德約定”,并沒(méi)有法律保障。也并不是遵循了這個(gè)協(xié)議就一定能避開(kāi)一開(kāi)始所講的法律問(wèn)題。
因此我建議使用爬蟲(chóng)以圖商業(yè)目的的朋友首先要識(shí)別數(shù)據(jù)性質(zhì),是公開(kāi)數(shù)據(jù)、半公開(kāi)數(shù)據(jù)還是內(nèi)部系統(tǒng)數(shù)據(jù),對(duì)于內(nèi)部系統(tǒng)數(shù)據(jù),嚴(yán)格禁止侵入;爬取數(shù)據(jù)時(shí)避免獲取個(gè)人信息、明確的著作權(quán)作品、商業(yè)秘密等;限定數(shù)據(jù)的應(yīng)用場(chǎng)景,如遇涉及侵害他人的商業(yè)利益和競(jìng)爭(zhēng)秩序的場(chǎng)景,要思之再三再做決策。
最后再談?wù)勅绾伪苊獠壤住5谝稽c(diǎn),同業(yè)競(jìng)爭(zhēng)者的數(shù)據(jù)最好不要爬,官司很容易上身;第二點(diǎn),被公司定性為有商業(yè)價(jià)值的數(shù)據(jù)不要爬,有個(gè)案例是百度爬了美團(tuán)的有價(jià)數(shù)據(jù),結(jié)果被告得很慘;第三點(diǎn),爬蟲(chóng)機(jī)器人千萬(wàn)別擾亂對(duì)方的正常運(yùn)營(yíng),萬(wàn)一搞崩了別人的網(wǎng)站,后果很?chē)?yán)重。
法律參考:
《刑法》第285條,非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪。最高處七年有期徒刑。
《刑法》第286條,破壞計(jì)算機(jī)信息系統(tǒng)罪。最高處五年以上。比如為了抓取數(shù)據(jù),破解登陸密碼,反編譯APP。
《網(wǎng)絡(luò)安全法》,倒賣(mài)隱私數(shù)據(jù)鏈條上的一環(huán)。你把抓取的數(shù)據(jù)倒賣(mài)給壞人,壞人拿數(shù)據(jù)做了壞事,你就是這其中一環(huán)。