Python爬蟲存在的法律風險有哪些?
有些朋友可能不太清楚所謂的“爬蟲”是什么意思,通俗點說,爬蟲就好比是一只網(wǎng)絡上的小蟲子,專門用來搜集網(wǎng)頁上的信息或數(shù)據(jù),然后把搜集到的數(shù)據(jù)搬運到特定的數(shù)據(jù)庫里。爬蟲不生產(chǎn)數(shù)據(jù),只做數(shù)據(jù)的搬運工。
現(xiàn)在鎖著python越來越火,很多行業(yè)都需要用到爬蟲。在爬蟲行業(yè)里有句順口溜:“爬蟲玩的溜,牢飯吃個夠”。雖然是一句玩笑話,但每年因為這個被處罰金甚至鋃鐺入獄進了局子的人也不在少數(shù),讓不少爬蟲選手心頭都是戰(zhàn)戰(zhàn)兢兢的。
在我國《刑法》285條中,是關于非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪的定義:
獲取該計算機信息系統(tǒng)中存儲、處理或者傳輸?shù)臄?shù)據(jù),或者對該計算機信息系統(tǒng)實施非法控制,
處三年以下有期徒刑或者拘役,并處或者單處罰金; 最高處七年有期徒刑并處罰金。
大部分因為爬蟲進去了的人,都是觸犯了該條法律。
善意爬蟲和惡意爬蟲網(wǎng)絡爬蟲分為善意爬蟲和惡意爬蟲,最常見的百度搜索引擎就是善意爬蟲,俗稱“百度蜘蛛”。善意爬蟲嚴格遵守Robots協(xié)議規(guī)范爬取網(wǎng)頁數(shù)據(jù),它的存在能夠增加網(wǎng)站的曝光度,給網(wǎng)站帶來流量;而惡意爬蟲不同,它會向目標網(wǎng)站投放大量的爬蟲,如果是在同一時間進行訪問的話,很容易造成網(wǎng)站服務器負載過大而崩潰,和網(wǎng)絡攻擊已經(jīng)沒什么區(qū)別了。而且惡意爬蟲還會試圖獲取網(wǎng)站中有一些不愿意公開的秘密信息。比方說12306就是惡意爬蟲的受害者。它們對12306網(wǎng)站的票務信息進行暴力爬取,不斷的對網(wǎng)站提出刷新請求,于是12306網(wǎng)站時常因負載過大而崩潰,對我們的網(wǎng)絡購票造成了嚴重的影響。
如何在進行爬蟲時避免碰到紅線?遵循Robots協(xié)議,善意的爬蟲行為是不受影響,但只要涉及到一下行為的爬蟲,都屬于惡意爬蟲。
侵犯個人隱私
違反規(guī)定侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統(tǒng);
構成不正當競爭
.侵犯商業(yè)秘密
另外,爬蟲大家還是用來做學習用吧,不要想著拿數(shù)據(jù)去牟利目前我國法律是偏向數(shù)據(jù)擁有者的,加入數(shù)據(jù)擁有者在有證據(jù)的情況下向法院起訴的話,抓取數(shù)據(jù)的一方幾乎不會勝訴。
爬墻有風險,且爬且謹慎。
(都看到最后了,麻煩點個贊和關注吧,謝謝~)