
- 收藏
- 加入书签
生成式人工智能训练数据侵权风险与合规治理
摘要:生成式人工智能为数字经济带来极大潜力的同时也带来了侵权风险。人工智能模型的训练离不开大量的数据,而对训练数据的高要求和现实开发中的难获得导致人工智能训练数据存在侵犯著作权、个人信息、不正当竞争等风险,而现有法律在对人工智能数据侵权方面的规制还存在不足。应当在完善规则的基础上,外部监管和内部合规建设相结合对人工智能训练数据侵权进行治理,在确保人工智能技术可持续发展的同时,维护个体权利。
关键词:生成式人工智能;训练数据;侵权风险;合规治理
生成式人工智能是基于算法、模型、规则生成多种内容的技术。从运行机制来说,首先需要进行海量的数据收集以构成人工智能模型学习的素材,然后对收集到的数据进行清理、标准化等操作,以使数据更好地被模型处理,接着用预处理后的数据训练模型、调整模型参数,最后使模型在收到指令后根据所学到的知识生成新的内容。人工智能训练需要大量数据,但对数据的收集和使用过程,可能侵犯他人权利,引发法律风险。随着生成式人工智能的发展,妥善解决其训练中产生的法律风险也成了重要问题。
一、生成式人工智能训练数据的来源和侵权风险
生成式人工智能训练数据主要来源包括数据爬取、使用公开数据和通过购买数据等方式。公开数据相较于其他数据获取途径,更为合理合规,但其内容范围有限。通过第三方平台购买的数据受限较多,且可能间接侵害的真正权利人权利。生成式人工智能训练数据的收集高度依赖爬虫程序,而通过爬虫程序进行数据抓取可能爬取到他人具有知识产权保护的作品,以及他人的个人信息和商业秘密。综合来看,训练数据的侵权风险主要涉及以下方面:
(一)著作权侵权风险
训练数据可能包括各种不同形式的作品,涉及不同的著作权人,在未获版权人许可或不构成合理使用的情况下,行为存在以下侵权可能:在数据收集过程中因涉及对初始数据的爬取复制而侵害版权人的复制权,抑或因爬取大型数据集落入汇编权范畴;在预处理阶段因“改变、编排目标对象的表达形式以形成新样本”构成改编行为。实践中已有相关案例:2024年6月20日,北京互联网法院在线开庭审理了四起画师起诉AI绘画软件开发运营者的著作权侵权案件。原告认为,被告未经允许将其作品用于训练AI模型并应用于商业用途,侵犯了其复制权、改编权等权利。
(二)个人信息侵权风险
生成式人工智能训练需要大量的数据,其中不乏一些个人信息,这就给个人信息保护带来了风险。第一,在对数据收集时存在违反个人信息保护法规风险。主要表现在通过数据爬取获取个人信息时未获授权、用户协议中约定不明且用户异议程序繁琐。第二,存在信息泄露风险,造成个人信息被第三方非法利用,给信息主体带来隐私、名誉等方面的安全隐患,甚至成为诈骗、勒索、敲诈等犯罪行为的侵害对象。
(三)不正当竞争侵权风险
利用爬虫程序从网站抓取数据的行为有可能被认定为不正当竞争行为。《中华人民共和国反不正当竞争法》的最新修订草案征求意见稿指出,经营者不得以不正当的方式获取或者使用其他经营者的商业数据,如违反约定或者合理、正当的数据抓取协议,获取和使用他人的商业数据。尽管是草案,但一定程度上反映了立法的趋势,根据这条规定,数据抓取行为可能构成不正当竞争行为。如果在抓取数据中获得了他人的商业秘密,还有可能构成侵犯商业秘密的不正当竞争行为,情节严重的可能构成犯罪。
二、生成式人工智能训练数据法律规制的困境
(一)传统侵权法下侵权行为认定难
训练数据不透明以及举证责任的分配导致证明侵权行为存在有困难。从训练数据本身来说,训练数据来源复杂、来源渠道多样且可能在数据获取后经过了处理转化后才归入训练数据集合,使得原始数据难以追溯。而在举证责任分配方面,对个人信息权益适用过错推定原则,信息处理者须承担证明自身无过错的责任,但是针对企业数据权益的立法安排却长期没有达成共识。在缺乏特别立法对归责原则进行规定的情况下,人民法院应当适用过错责任原则,由原告承担举证责任,而在训练数据不公开不透明的情况下,原告举证负担重、难度大。两者叠加,难以取得足够的证据对侵权行为的存在进行证明。
(二)《著作权法》的规定难以适应技术需要
根据《著作权法》的规定,使用他人作品通常需要获得著作权人授权并支付一定的报酬。因此,通过获得著作权人许可后要使用他人作品对人工智能进行训练能有效避免对著作权的侵害。但是,实践中此模式适用面临困境。一是生成式人工智能通常需要大量的训练数据,一一与权利人进行协商谈判以达成许可协议,成本高、效率低,许可条件过苛、许可范围过窄等问题。此外,由于训练数据并不是直接复制或转载他人的作品,二是训练所使用的作品来源广泛、复杂,有些作品的著作权人可能难以确定,因此无法取得有效的许可。与此同时,若想引用“合理使用”的规定在未获著作权人许可的情况下使用作品,缺乏法律依据,很难获得认可。法律规定和技术需要之间存在冲突,《著作权法》的现有规定一定程度上存在之后,难以周延解决实践问题。
(三)《反不正当竞争法》对数据爬取行为的规制存在不足
《反不正当竞争法》没有明确界定数据爬取行为的性质。要认定数据爬取行为是不正当竞争行为,在爬取到的信息不涉及商业秘密的情况下,多是通过“互联网专条”及一般条款进行认定。这种方法在存在较大裁量空间的同时,也涉及认定“不正当竞争行为”是否需要存在竞争关系以及对“竞争关系”界定的争议等问题。在司法实践中,因为法律适用的不甚明确,所以各地各级的法官运用自身的自由裁量权,创造性的提出了一些颇具有参考价值的具体原则,但这些原则并不统一,且不能很好地运用于生成式人工智能训练数据获取时的数据爬取行为。
三、生成式人工智能训练数据合规治理的路径
(一)法律法规的完善
进行生成式人工智能训练数据的合规治理,首先应当对相关法律法规进行完善,为合规提供行为标准和遵循。
1.《著作权法》的修改
一是重构合理使用的标准与范围。我国现有《著作权法》,增设了“兜底条款”,看似扩展了“封闭式”法定豁免情形,增强了合理使用的弹性,但从“在下列情况下使用作品”的文字表述来看,仍未跳出封闭式的框架。应适当扩大合理使用的范围。从短期看,在我国著作权法未作修改的情况下,可以在《中华人民共和国著作权法实施条例》中增加“数据抓取”作为合理使用的特定情形;从长远来看,在《著作权法》中增加“数据抓取”作为合理使用的特定情形,并从主体、使用目的、使用方式,使用限制等方面完善合理使用制度,使《著作权法》在保护著作权人的同时适应数字时代的需要。
二是建构著作权法定许可制度,使生成式人工智能公司能在满足一定条件的情况下,无须征得著作权人同意即可将其作品用于训练。构建法定许可制度,要平衡著作权人与作品使用者之间的利益。首先,需要在全面考量许可对著作权人和社会利益的影响的基础上明确著作权临时许可的条件与范围。其次,著作权主管机关要联合诸如财政部门之类的其他机关,制定合理的补偿金标准。最后,应当构建公开透明的程序,使用者借助该程序能够获得许可,而著作权人若不希望自己的作品被使用,也可以通过这个程序提出反对意见,并要求主管部门裁定撤销使用许可。
2.《反不正当竞争法》的回应
针对于实践中出现的数据爬取行为,《反不正当竞争法》应当结合已有的司法实践和实践需求,给出更明确的认定标准。结合司法实践,一是实质性妨碍标准,即数据爬取行为是否实质性妨碍了被爬取平台或网站经营者的正常运行;二是做替代分析,考查数据爬取行为是否造成被爬取方的产品或服务被实质性替代。最高人民法院曾在判决书指出判断竞争行为不正当的依据只能是经营者的合法权益确实因竞争者的行为受到了实际损害。“非显著损害不禁止”避免了特定经营者滥用权利,在不实质损害其他经营者利益的同时,有利于生成式人工智能训练数据的获取。互联网平台在其提供的产品和服务上投入了劳动、技术和金钱,如果竞争者爬取平台上的数据造成对被爬取方产品的替代,会无偿占有被爬取方的竞争优势,这种爬取行为应当受到《反不正当竞争法》的规制。如果爬取方抓取数据之后并未将数据做竞争性使用,这种数据再利用并不会替代被爬取方提供的产品和服务,则不应被认定为不正当竞争行为。
3.专门性立法的制定
随着人工智能的发展,其与人们的生产生活联系更为密切,立法机构可以考虑制定人工智能治理方面的专门性法律。在法律中对人工智能监管和治理的相关问题进行系统性的规定。从实体上要明确各主体的权利和义务,从程序上要构建监管程序,从法律责任上要构建一套完整的责任机制。专门性的法律要回应实践中人工智能训练、使用等环节的治理需求。以人工智能的训练来说,要围绕训练数据明确公开的要求,对公开的范围、公开的方式、不依法公开的责任等方面作出恰当的制度安排。
(二)外部监督和管理
在数据源头方面,一方面,政府和相关部门推动建立公共的训练数据共享平台,鼓励企业和科研机构将合法、高质量的数据上传至平台,以此降低数据获取中的侵权风险,提高数据的利用效率。另一方面,设立和完善数据资产交易市场,实现数据资产的财产价值,降低数据获取的难度,降低侵权风险。
在监管方面,监管机构要加强对人工智能训练数据来源和适用的监督,定期及不定期对生成式人工智能训练数据的合法性、合规性进行审查和评估,确定风险点和弱点,及时预警,促使生成式人工智能的开发者采取适当行动降低侵权风险。对已经发生的违法违规行为,应督促企业配合调查、及时整改,并追究相关主体的行政、刑事责任,确保企业数据违规事由的消除和对受侵害的权利人的补偿。
著作权集体管理组织也可以从自身定位出发积极发挥作用。著作权集体管理组织可以将大量分散的著作权集中起来,与人工智能开发者进行统一的授权谈判和许可发放。著作权管理组织可以利用自己的专业性对开发者的使用目的、使用方式、适用范围等进行审查,在维护著作权人合法权益的基础上提高授权效率,使开发者能快速、合法地获取数据。授权后,著作权管理组织可以进行监督,确保其按照授权协议的规定使用训练数据,如果发现违规使用行为,可以及时采取措施维护著作权人的合法权益。
另外,政府可以进行恰当和充分的合规指导。反垄断领域已有相关实践,《国务院反垄断委员会关于平台经济领域的反垄断指南》的制定出台取得了良好的效果,有助于平台经济领域垄断风险的效预防。以此为参考,人工智能领域也可以指定出台相关的合规指南,为训练数据的取得、处理和使用提供合规指导,降低和消除训练数据侵权风险。
(三)生成式人工智能企业内部合规机制的建立
企业需要建立合规日常管理机制,借助系统性管理工程来降低数据违规风险发生的概率,并持续对企业数据合规治理体系加以改进。
其一,组建具备法律、数据等综合性知识的人才团队建立企业数据合规监管部门,对企业的数据合规工作进行全面的领导。其二,企业内部建立数据风险评估机制,从数据到来源到加工到使用,对算法和数据相关的风险进行评估和识别,并及时采取措施。其三,为被侵权人提供有效的申诉机制,在提供救济途径的同时,发现侵权行为的存在,避免行为的省级和损害结果的扩大。其四,定期组织数据合规方面的学习培训,增强企业数据合规意识与治理能力。最后,与政府、著作权集体管理组织对接,完善企业数据合规体系的建设,并建立常态化沟通机制,及时发现和解决潜在的违规违法行为。
四、结语
人工智能技术推动新质生产力发展,而新技术在赋能各行各业的同时也带来新的问题。我国应当积极探索合理的人工智能治理模式,既要为生成式人工智能的稳步发展创造有利的技术环境,也要强化数据合规机制建设,防范可能的侵权风险,在实现生成式人工智能技术的创新与进步的同时,降低生成式人工智能给社会带来的负面影响,保障数据安全与数字经济的发展。
参考文献:
[1]刘霜,张潇月.生成式人工智能数据风险的法律保护与规制研究——以ChatGPT潜在数据风险为例[J].贵州大学学报(社会科学版),2023(09):87-97.
[2]张涛.生成式人工智能训练数据集的法律风险与包容审慎规制{J}.比较法研究, 2024(07):86-103.
[3]周樨平.数据爬取的不正当竞争认定规则研究[J].南大法学,2023(02):87-102.
本文系湖南省教育厅优秀青年项目“企业合规建设的动力和路径”(项目编号:21B0852)研究成果。
作者简介:徐争(1988—),女,汉族,江苏无锡,法律系讲师,研究方向:经济法、商法。