• 收藏
  • 加入书签
添加成功
收藏成功
分享

大数据时代恶意网络爬虫行为的刑法规制

焦龙
  
卷宗
2024年3期
长春理工大学法学院

摘要:在大数据时代的背景下,网络爬虫技术的出现使得数据的交流与沟通变得更加便捷。网络爬虫技术并无好坏之分,使用这种技术抓取信息的网络爬虫行为有善意与恶意之分,区分标准就是行为人在客观上的抓取信息行为是否违背数据网站的Robot协议、Robots Meta标签或者直接突破数据网站的反爬虫壁垒,主观上有无不被协议约束抓取信息的恶意。鉴于司法上的实际情况,可以恶意网络爬虫行为所侵害的法益对其分别定罪处罚。

关键词:网络爬虫;刑法规制;大数据

一、网络爬虫行为的界分

(一)网络爬虫的运行原理

随着网络技术的不断发展,万维网成为全世界的最大信息载体,每天都有巨量的信息在万维网中被上传以及被下载。在这些巨量信息中,如何快速寻找到自己想要的信息并且尽可能全的收集到,就成为网络爬虫技术发展的动机。网络爬虫(web crawler),也被称为网络蜘蛛,或者Web信息采集器,是一种利用软件程序模拟人工点击的方式,大规模地从数据网站、手机APP、小程序、搜索引擎中检索、收集、提取数据的技术。随着5G、云计算、区块链、物联网等技术的广泛应用,该项技术成为互联网时代数据信息收集的重要手段。网络爬虫可以系统化的分析、收集有关网站中的数据,并且可以帮助识别、汇总信息,并可以绘制出未经开发的网站,故该项技术被广泛运用于互联网金融、天气预报、视频聚合平台等领域。

该技术的具体运行原理为,依据特定的检索目标信息,设置有针对性的爬行URL队列,再从中抽出相应URL,访问与其对应的网络页面,并对页面进行解析,将该特定页面上所有的URL提取并存入相应的爬行队列,通过往复循环爬行,直至队列中所有URL爬行完毕并符合抓取条后此次爬行即为结束,从而遍览互联网网页。[1]

(二)网络爬虫的分类

网络爬虫技术,与网络爬虫行为,我们应当作出明确的区分。网络爬虫技术,如前所述,是一种从网络中收集信息的技术,而自然人或者公司使用这项技术的行为,就是网络爬虫行为。网络爬虫技术从根本来讲是一种数据收集技术,技术本身并无不法,但是近年来爬虫技术被滥用而成为不法分子谋取经济利益的重要手段,从而丧失了基于技术中立的责任豁免可能性。[2]

此时,本文认为,可以根据使用者的使用行为,将网络爬虫行为分为善意网络爬虫行为和恶意网络爬虫行为。所谓的善意网络爬虫行为,是指当对方(被收集信息的一方)存在有效的Robots协议(Robots Exclusion Protocol),或者是有效的Robots Meta标签等,那么根据相关的协议,对于使用网络爬虫技术所收集的信息的范围有准确的限定,使用者(收集信息的一方)在所限定的范围内收集信息,且并未造成其他后果,即可以认为此时为善意网络爬虫行为。与此相反,在当对方(被收集信息的一方)存在有效的Robots协议或者直接设置反爬虫技术壁垒,如身份验证、封锁IP等,而使用者(收集信息的一方)超过限定范围收集信息或者直接无视反爬虫技术壁垒,进而继续收集信息的,此时应当认为使用者(收集信息的一方)是恶意,这种行为即为恶意网络爬虫行为,这也是本文讨论的主要内容。既不能将二者混为一谈,亦不能替换使用,后者应当是法学研究关注的重点。

二、恶意网络爬虫行为的刑法规制必要性分析

恶意网络爬虫行为具有严重的社会危害性

恶意网络爬虫行为会造成计算机信息系统瘫痪,使其无法正常运行。恶意网络爬虫行为人通过非法手段进入特定的计算机信息系统,通过植入爬虫程序删除或修改计算机信息系统或文件,给计算机系统安全造成极大的危害。在“杨杰明、张国栋破坏计算机信息系统案”中,公诉机关指控,2018年1月,杨杰明授权本公司技术工作人员张国栋开发一款名为“快鸽信贷系统”的软件,该软件内的“网络爬虫”功能能与深圳市居住证网站链接,可以在深圳市居住证网站上查询到房产地址、房屋编码等对应的资料,该软件对深圳市居住证网站访问量能达到每小时数十万次,以达到为其公司主营业务便捷的目的。2018年5月2日10时至5月2日12时许两小时内,该软件对深圳市居住证系统查询访问量为每秒183次,共计查询信息1510140条次并将查询的信息以阿某云网络云盘的形式保存,在该时段内造成深圳市居住证系统无法正常运作,同时也极大地影响了系统使用方深圳市公安局人口管理处的工作。在案证据中,粤安计司鉴2018计430号-函01关于“超级计算中心服务器状态”的函复,由广东安证计算机司法鉴定所出具,证实对深圳市公安局居住证服务平台中2018年5月2日的日志进行检查发现,深圳市公安局居住证服务平台在2018年5月2日共接受来自IP:119.23.149.117大量访问。其中2018年5月2日10:14:30至2018年5月2日12:31:36时间段共1,510,140次,访问平均值达到1万1千余次/每分钟。在此期间访问量突增,占用大量的访问端口,造成服务器阻塞,导致其他用户无法正常使用深圳市公安局居住证服务平台的业务。因此,IP:119.23.149.117在2018年5月2日对深圳市公安局居住证服务器的持续大量的访问造成了深圳市公安局居住证服务平台在2018年5月2日10:14:30至2018年5月2日12:31:36期间无法正常对外提供服务,服务器无法正常运行。[3]

恶意网络爬虫行为侵犯多种法益

恶意网络爬虫行为侵犯了计算机信息系统安全。计算机信息系统的非法侵入和非法获取数据主要是指未经计算机信息系统控制者授权,擅自访问计算机信息系统的行为和进一步获取信息数据的行为。[4]如前所述,在“杨杰明、张国栋破坏计算机信息系统案”中,被告人杨杰明授权本公司技术工作人员张国栋开发新软件,但是实际上,这个新软件就是一个运用网络爬虫技术收集大量信息的软件,该软件对深圳市居住证网站访问量能达到每小时数十万次,以达到为其公司主营业务便捷的目的,其造成的直接后果就是系统无法正常运作。大数据时代背景下,任何大数据工作的正常运行都离不开计算机信息系统的稳定与安全,但是,恶意网络爬虫行为又恰恰威胁到了计算机信息系统的运行状态,而一旦计算机信息系统停止运行,就会导致经济损失的发生。

三、恶意网络爬虫行为的刑法规制思路

(一)坚持从客观与主观的阶层判断

1、恶意网络爬虫行为客观上表现为未经授权或者超越授权。“未经授权”是指网络爬虫根本就没有获得数据网站的授权机制许可;“超越授权”是指网络爬虫超越了被授权范围访问、获取数据,包括平行越权、垂直越权。[5]本文认为,所有未经授权的网络爬虫行为(排除事后认可以及行业惯例),如果造成了危及系统安全或者数据安全的后果,情况严重的,均符合相关罪名的构成要件。“未经授权”或者“超越授权”,不能仅仅从概念上理解,还应当对其进行实质判断,考察网络爬虫抓取数据行为对法益的侵害或者威胁是否达到实质可罚的程度。[6]如果被抓取的数据类型是公开的数据,任何公司或者任何人都能自由的了解该项数据,那么此时就不能认为该行为是刑法所禁止的行为,因为该行为不符合任何一个罪名的构成要件;与此相类似,在信息被收集方同意的场合中,即使收集信息有未经授权或者超越授权的情况,但是基于“被害人承诺”的原理可以解释为信息被收集方于信息收集过程中或者信息收集后对于信息收集的知情以及授权,可以认为此种情况下网络爬虫行为阻却刑事违法性。刑法教义学上也认为这种“被害人承诺”的行为阻却刑事违法性,根据“保护必要性阙如原理”排除国家刑罚干涉。[7]

2、恶意网络爬虫行为在主观上表现为具有突破协议内容,抓取信息的故意。一般而言,运用网络爬虫技术的程序被设计之初,全部都是具有抓取信息的故意。但是并不是所有的抓取信息行为都被评价为恶意网络爬虫行为从而受到刑法规制。在突破协议规定的范围以外抓取信息,该行为体现了网络爬虫行为的“恶意”,此时有可能构成相关的犯罪。显然,恶意网络爬虫认识到突破数据网站技术措施的行为违背了权利人的保护意愿,仍基于自由意志而选择继续爬取数据,足以证明其具有犯罪故意。[8]在数据网站设置反爬虫技术壁垒时,说明该数据网站对于本网站所有的数据的安全重视程度以及“独占”数据的内心态度,此时无论何种网络爬虫行为在该网站抓取信息的行为都应该评价为行为人具有“恶意”,即具有否定反爬虫技术壁垒,进而获得数据的主观意图。以“道德黑客”(伦理黑客、白帽子、ethical hacker)为例,这类黑客主要由安全研究人员和操作员组成,主要跟踪和监控威胁。他们很可能在法律范围以外进行各项操作,其目的是阻止恶意黑客。[9]在道德黑客使用网络爬虫技术时,由于其是在发现漏洞或者在阻止黑客,虽然客观上的行为与恶意网络爬虫行为有一定的相似性,但是由于其不具备否定协议内容,抓取信息的主观意图,所以不构成犯罪。

(二)坚持刑法谦抑性的体系判断

当一个网络爬虫行为需要刑法评价的时候,此时在构成要件符合性判断之前,要先判断其是否确实属于别的法律无法完整评价其行为的情况。在裁判文书网以“网络爬虫技术”为关键词进行检索时,民事法律文书的数量远大于刑事法律文书,在对民事法律文书进行整理时,可以发现,民事主体起诉恶意网络爬虫行为人时,大多以“侵权”为由提起民事诉讼。而民事诉讼中的侵权之诉,需要证明四项内容,分别是侵权行为、因果关系、主观过错以及损害后果。在网络爬虫侵权类型中,难以证明的就是侵权行为,由于网络爬虫行为是在虚拟网络中发生的,所以实践中一般是以经过公证机关公证的证据为主,这无疑增加了原告的诉讼成本,因此能提起民事诉讼的一般都是大型数据网站的管理者,而中小型数据网站并不具备强大的经济能力。在民事诉讼中另一项比较难证明的是损害后果,即被告的网络爬虫行为究竟给原告造成了多大的损失,由于民法中侵权赔偿适用的是“填平原则”,故损失的大小直接涉及到被告的赔偿数额。由于损失赔偿对于某些大型数据网站的影响来说微不足道,付出的诉讼成本与获得的赔偿不成正比,因此无法减少网络爬虫的侵权行为。

网络爬虫行为的治理应当是一个系统性的工程,不是单靠民法手段或者行政手段亦或是刑法手段就能完全治理好,而是各个法律之间形成一个良性治理系统,综合治理网络爬虫行为。

(三)坚持罪刑法定原则的适用判断

《中华人民共和国刑法》第三条规定,法律明文规定为犯罪行为的,依照法律定罪处刑;法律没有明文规定为犯罪行为的,不得定罪处刑。这是我国刑法关于罪刑法定原则的规定。罪刑法定主义的基本含义是 “法无明文规定不为罪,法无明文规定不处罚”。我们往往把这一含义中的前半句称为犯罪的法定性,后半句则称为刑罚的法定性。因此,罪刑法定主义是指犯罪的法定性与刑罚的法定性之统一。[10]虽然目前立法机关尚未作出新罪名以规制恶意网络爬虫行为,但是,基于目前的刑法体系,对于恶意网络爬虫行为所侵犯的法益的不同可以不同的罪名对其进行限制。首先,恶意网络爬虫行为如果进入国家重要的计算机信息系统,则该行为可能触犯《刑法》第二百八十五条规定的非法侵入计算机信息系统罪。由于本罪是行为犯,故不要求恶意网络爬虫行为人实际抓取到信息。其次,恶意网络爬虫行为如果违反国家规定,获取普通计算机信息系统中的数据,或者对该计算机信息系统实施非法控制,情节严重可能构成《刑法》第二百八十五条第二款规定的非法获取计算机信息系统数据、非法控制计算机系统罪。这里的“违反国家规定”不能做狭义理解,而应从最广泛的意义上理解,它包括违反国家法律、行政法规、部门规章以及其他规范性法律文件的规定。[11]再次,如果恶意网络爬虫行为人针对公民个人信息实施大量抓取,造成大量公民个人信息泄露或者其他后果,情节严重可以构成侵犯公民个人信息罪。最后,如果恶意网络爬虫行为人针对他人享有著作权的作品实施网络抓取,其行为可能构成侵犯著作权罪。侵犯著作权罪有六种表现形式,恶意网络爬虫行为在构成本罪时,具体表现为将他人已经发行的,享有著作权的作品通过网络爬虫技术抓取植入或者复制在本人控制的网站中,然后上传至云服务器中,当有需要的人在本网站搜索相关字时,网络爬虫就会智能排列出“资源”,供使用者阅读,从而使正规网站的作品数据遭到泄露,继而达到盈利的目的。

司法机关在办理恶意网络爬虫行为相关犯罪时,除了准确定罪以外,还有一个重要的问题就是准确量刑。实务中大多重定罪,轻量刑。[12]本文认为,恶意网络爬虫行为在涉及相关犯罪中,除了非法侵入计算机信息系统罪以外,所涉及的大多数罪名都是情节犯。在情节犯中,如果一个情节已经在定罪中予以评价,那么在量刑过程中就不能对该情节再进行评价,否则就构成“重复评价”。

四、结语

大数据时代背景之下,网络爬虫技术生活使我们的工作变得便捷,工作效率得到提高。但是,新型网络技术是一柄双刃剑,在犯罪分子利用之下,极易造成对于网络安全以及数据安全的损害。在立法尚未对此进行完善的情况下,只能立足于司法,以网络爬虫行为侵犯的法益的不同对其进行个体化的评价,在数字经济时代发挥刑法的规制作用。

参考文献

[1]张明楷.刑法学(第六版)[M].北京:法律出版社,2021.

[2]周光权.刑法公开课(第二卷)[M].北京:北京大学出版社,2021.

[3]郑云文.数据安全——架构设计与实战[M].北京:机械工业出版社,2019.

[4]刘宪权.网络黑灰产上游犯罪的刑法规制[J].国家检察官学院学报,2021(1).

[5]刘艳红.网络爬虫行为的刑事规制研究-以侵犯公民个人信息犯罪为视角[J].政治与法律,2019(11).

[6]刘艳红,杨志琼.网络爬虫的入罪标准与路径研究[J].人民检察,2020(15).

[7]冀洋.法益自决权与侵犯公民个人信息罪的司法边界[J].中国法学,2019(4).

[8]张明楷.论刑法的谦抑性[J].法商研究,1995(4).

[9]陈兴良.罪刑法定主义的逻辑展开[J].法制与社会发展,2013(3).

[10]李遐桢,侯春平.论非法获取计算机信息系统数据罪的认定--以法解释学为视角[J].河北法学,2014(5).

[11]姜涛 四种类型的黑客分析[J].计算机与网络,2017(06).

[12]孙道萃.网络“白帽子”的罪责边界审思:从袁某案说开去[J].法律适用,2017(16).

作者简介

焦龙(1997.03—)男,内蒙古自治区通辽人,长春理工大学法学院学2022级硕士在读,研究方向:刑法学。

*本文暂不支持打印功能

monitor