• 收藏
  • 加入书签
添加成功
收藏成功
分享

人工智能时代自媒体洗稿的困境与求解

冯芝婷
  
卷宗
2022年30期
西北政法大学经济法学院

摘要:人工智能时代的到来,自媒体洗稿颠覆了传统洗稿的诸多法律认知,基于技术隐蔽性、自媒体平台的封闭生态圈以及洗稿对象的多样化等原因,机器洗稿法律规制之困主要体现为传统侵权认定的局限性、确认作品主体困难、自媒体平台主体地位的缺失等方面。有鉴于此,有必要把着眼于洗稿行为的规制转变为着眼于“数据采集—数据处理—结果输出”全流程的规制,以寻求法律与技术并重的多元并重的规制之道。

关键词:人工智能;洗稿;数据抓取;接触+实质性相似

一、问题的提出

以大数据、算法为核心技术,人工智能广泛应用于新闻采集、机器人辅助写作、智能化推送等传媒领域。[1]然而,人工智能在服务于传媒业的同时,也带来了新的问题与挑战。由于一些作者的创作能力有限,采取同义替换、词语调整等方式迅速将相关文章合成为一部新文章,此即为“洗稿”。

在腾讯诉快忆公司一案中,快忆公司的“后羿采集器”就是一款典型的人工智能洗稿机器。后羿采集器基于用户需求,对微信上的自媒体文章进行数据抓取、数据清洗,同义词替换、语序转换等操作,输出与原文章主题、观点、逻辑、结构等均高度相似的新文章。腾讯公司以快忆公司的人工智能洗稿行为属于反不正当竞争为由提起的诉讼,那么,利用反不正当竞争法来规制人工智能洗稿行为是否又是一条新的出路?文章在界定分析人工智能洗稿的基础上,拟就上述问题作出回答。

二、人工智能洗稿的内涵及技术路径

根据我国著作权法的规定,仅利用原新闻作品的单纯的事实消息并不构成侵权。但随着该行为向其他领域扩展后,洗稿也随之发生了变质,变成了更高版本的剽窃。

随着人工智能的发展,洗稿逐渐出现“去人工化”的现象。从早期代码定义到而今的数据训练,人工智能洗稿体现为数据采集、数据处理以及数据输出三个阶段。在数据采集阶段,计算机通过API等程序接口实现数据抓取,在整合抓取数据的基础上,对数据进行清洗。在抓取并过滤无效数据后,基于代码定义的算法将会基于人类思维模式和语言建模进行海量数据处理。随着处理数据的日渐增多,算法逐渐优化,算法洗稿后将更为隐蔽。最后,在人类语言习惯的基础上形成伪原创。

人工智能洗稿有很多种类型,其中最主要的有两种:其一是,自媒体作者利用“一键生成”系统,将目标文章的内容链接复制到该软件中,利用同义词替换、叙述方式变换等功能,自动生成新的自媒体文章。其二是,作者在辅助写作软件中输入关键词,利用其他作品所形成的强大的数据库自动生成有关人物性格、基本情结和矛盾冲突等语段,辅助生成伪原创。[2]人工智能创作在生成原理上与人工智能洗稿存在相似性,均是依赖于算法优化进行分析加工的行为,但人工智能洗稿与人工智能创作存在本质差异。人工智能创作不囿于代码中的元概念和语词结构,而是基于海量数据中提取常用替换方式生成新的具有独创性的文本,不属于抄袭行为。

三、人工智能洗稿的法律规制之困

(一)困境成因

1.人工智能洗稿的技术隐蔽性

数据爬虫的出现一方面降低了人工智能洗稿的侵权成本,另一方面也致使侵权行为影响的原作品的范围和数量都大幅增加。数据处理阶段,人工智能通过运用中文分词、句法分析、语义联想等高级自然语言处理技术,进行语义重写,从而完成洗稿的实质过程。而随着语料的不断堆积,计算机甚至可通过提炼中心思想、创新措辞生成新的文本。但由于数据采集和处理阶段的技术隐蔽性,致使软件审查和人工审查搜集原作品、判断两作品是否存在实质性相似存在极大障碍。

除此之外,现有洗稿审查机制往往是以原作品权利人发起投诉为开端。如果无投诉方提起,自媒体的相关部门并不会自发的进行洗稿审查,而原作者也可能很难发现自己的作品被侵权。

2.自媒体平台的闭环生态缺陷

“互联网+”通过连接互联网、用户、产品、服务等因素,并连接这些因素形成闭环生态系统。改系统能够最大限度挖掘产业上下游之间的价值,形成数据竞争有效壁垒,确立自媒体平台的市场优势。然而,自媒体平台的闭环生态系统为人工智能洗稿提供了便利。自媒体公众号往往需要用户订阅才能查看完整内容或更新内容。这样的设计之下,用户就很难捕捉到订阅之外的公众号文章,人工智能洗稿败露的风险将大大降低,[3]无形中增加了人工智能洗稿法律规制的难度。

这种闭环生态的缺陷还进一步体现为权利人维权成本的增加。闭环生态系统下,自媒体作者很难发现自己的作品被侵权,及时发现侵权,作者无法从海量的文章中寻找被侵权的作品或作品片段,证据搜集成本也随之增加。

3.侵害客体数量众多,涉及利益主体多样

人工智能洗稿最先侵害的就是原创作者的权利,除此之外,还可能侵犯了平台的部分利益。基于高质量的内容管理,内容平台形成了良好的平台生态环境,从而确保用户的粘性,提升闭环生态系统的整体价值和竞争力。爬虫抓取并洗稿平台原创文章,一方面分散了平台聚焦的流量,另一方面,也侵害了平台基于数据而产生的合法权益。

(二)困境体现

1.传统洗稿侵权认定规则的局限性

并非所有洗稿都是应受法律规制的行为。以“接触+实质性相似”这一传统侵权认定方式判定人工智能洗稿存在极大的局限性。一是“接触+实质性相似”的个案判断难以满足人工智能规制的需要;二是“接触+实质性相似”判定主体存疑;三是“接触+实质性相似”的判定方式存在争议。

从现有的案件整理来看,我国事实上采取的是抽象分离+整体认定、综合判断的方式。[4]一方面,法院需要逐步抽离、分析出受原告控制的独创性表达。另一方面,对于独创性表达的比较,法院更加注重作品的整体性,并进行综合判断。诚然,这种方法确实能够较为全面且清晰地比对实质性相似,但在人工智能洗稿的情形下,其必将耗费大量的司法成本。

2.著作权侵权主体界定困难

部分学者认为,人工智能虽能够以类人化的思维进行洗稿,其本质仍旧是机器,而非人。这种说法显然忽视了算法优化之下,人工智能机器人已经具有了一定程度的自我意识和自我表达能力。[5]既然是自己的行为造成了侵害他人著作权的侵权后果,也实施了抓取和洗稿的侵权行为,人工智能理应作为承担侵权责任的主体。但在目前民法典规定自然人、法人、非法人组织的三元主体框架之下,智能机器人无法独自承担法律责任。就智能机器人侵权问题,学者曾尝试提出两类解决路径,一是由于智能机器人系他人设计、生产,可适用产品责任之规则;二是通过技术中立所产生的替代责任规则。[6]但即便是按照上述路径,在使用者和智能机器人存在共同侵权的情况下,如何确定使用者和智能机器人的过错以及损害结果大小?依然是理论界与实务界面临的难题。

3.自媒体平台主体地位的缺失

“数据+算法”是人工智能洗稿的核心,数据搜集和处理是人工智能进行机器学习的基本方法。得益于海量的文章材料,借助于算法训练与优化,人工智能洗稿逐步产业化和职业化。在此背景下,智能机器人抓取的对象不再是某一作者的文章而是与之相关的系列作者的作品。而此时,除了特定作品的作者,平台利益也受到一定侵害。但在作品的著作权归属于作者的情况下,自媒体平台的维权都须以作者实现约定或者获得作者授权为前提,在没有与作者约定的情况下,自媒体平台无法以自己的名义向法院提起著作权之诉。自媒体平台著作权主体地位的缺失助长了智能机器人洗稿之风,加大了人工智能洗稿法律规制的难度。

四、人工智能洗稿法律规制的疏解之道

人工智能洗稿规制的困局是技术迭代和法律滞后共同作用的结果,有必要把着眼于洗稿行为的规制转变为着眼于全流程的规制。

(一)数据采集:利用反不正当竞争法规制非法数据抓取

智能机器人非法采集自媒体平台的作品数据是洗稿的首要环节,也是洗稿规制困境产生的重要方面。从反不正当竞争法的角度视之,无视他人反爬虫规定,获取他人网站数据的行为构成不正当竞争。于自媒体平台而言,取道反不正当法成为其维护自身利益的重要路径。反不正当竞争法一方面弥补了著作权人分散维权的不利局限,另一方面通过确认自媒体平台的主体地位,维护了应有的竞争秩序,不失为一剂良策。

但是,基于数据抓取的不同场景,学者与司法实践对于“平台通过爬虫手段抓取另一平台数据是否合法”态度不一。[7]为了抓取网站上受著作权法保护的私人数据、作品数据而违反robots协议的行为这一场景上,学界与实务界均认为构成其构成不正当竞争。但如果抓取的数据本就属于公有领域,违背robots协议应当被允许。

违背自媒体平台爬虫协议采集平台作品数据是否构成不正当竞争,需要考虑以下几个要素:(1)法律对该种竞争行为未作出特别规定;(2)原被告之间的竞争关系。在互联网细分领域界限日渐模糊的情况下,宜采取广义上的替代竞争关系,以突破狭隘竞争关系的羁束。(3)其他经营者的合法权益确因该竞争行为而受到了实际损害以及经营者的主观过错;竞争行为的不正当性是构成反不正当竞争法的核心要件,而在个案中,其主要体现为损害结果,这种损害结果既包括了其他经营者的实际损害,还包含互联网互联互通、权益保护及技术创新的影响。(4)该种竞争行为因确属违反诚实信用原则和公认的商业道德而具有不正当性。

(二)数据处理:提高智能机器设计者的注意义务

人工智能时代,当事后权利人损害程度明显大于开发者的预防侵权成本,理应提高智能机器设计者的注意义务。在数字时代,学者就过错与网络服务提供商审查义务之间已作出诸多探索。版权内容识别和过滤技术的进步为网络侵权判定带来了革命性变化。网络内容识别和过滤技术通过语言分析、图像处理、机器学习等对抓取的数据内容进行深度分析,自动识别出需要过滤的内容特征,并建立索引,并在分析特征后决定是否干预。[8]版权内容识别与过滤技术基础上,设计者可以引入防侵权算法,藉由侵权法中的过错评价体系,分析设计者在人工智能洗稿中的主观过错,进而实现数据处理中的技术监管。

(三)数据输出阶段:从一元到多元互动

人工智能洗稿的最终结果是伪原创作品的产生。传统洗稿评价行为主要采取的是司法判定的一元系统。但在人工智能时代,规制路径应当从司法一元规制转变为包含技术、法律在内的多元互动路径。

于技术角度视之,侵权判定辅助工具、版权内容识别与过滤机制、区块链技术日渐成熟为解决洗稿侵权判定的提供了有力的技术支撑。侵权判定辅助工具主要表现为反剽窃软件或剽窃检测软件。而司法端拥抱区块链技术也为人工智能洗稿的司法规制带来了利好消息。区块链在洗稿确权存证、监测追踪乃至取证维权场景中的应用,降低了示证成本,提高了诉讼效率。[9]

于法律角度视之,著作权惩罚性赔偿的引入有助于遏制面向洗稿的算法设计。据《著作权法》的规定,对故意侵犯著作权或者与著作权有关的权利,情节严重的,可以在按照上述方法确定数额的一倍以上五倍以下给予赔偿。专门面向洗稿的软件设计,存在侵犯他人著作权的故意,符合惩罚性赔偿的法律构成。在此场景下,能够起到法律应有的威慑和预防作用。

五、结语

对于人工智能洗稿行为规制,应当转变为着眼于“数据采集—数据处理—结果输出”全流程的规制,从而才能更有效地寻求法律与技术并重的多元并重的规制之道,以多元手段对该行为进行打击与限制,保证相关权利人的合法利益,促进我国文化事业的蓬勃发展。

参考文献

[1]刘芳,范紫云.人工智能在传媒领域的应用与思考.传媒,2020年第23期.

[2]周勇.智能洗稿法律规制研究.当代传播,2019年第4期.

[3]赵泓,陈因.自媒体洗稿的成因、界定及防范.现代传播,2019年第41期.

[4]北京市高级人民法院民事判决书(2018)京民终字第226号;北京市朝阳区人民法院民事判决书(2017)京0105民初字第62752号;北京高级人民法院民事判决书(2015)高民(知)终字第103号.

[5]王利明.人工智能时代对民法学的新挑战.东方法学,2018年第3期.

[6]刘小璇,张虎.论人工智能的侵权责任.南京社会科学,2018年第9期.

[7]丁晓东.数据到底属于谁?——从网络爬虫看平台数据权属与数据保护.华东政法大学学报,2019年第5期.

[8]崔国斌.论网络服务商版权内容过滤义务.中国法学,2017年第2期.

[9]杨春磊,李刚.论区块链在反“洗稿”中的技术应用与司法认定.出版发行研究,2021年第3期.

*本文暂不支持打印功能

monitor