编者按 在生成式人工智能数据训练过程中,未经版权人许可的作品使用行为面临着侵权风险。本文作者认为,著作权法应将此种作品使用行为纳入合理使用范畴,并从合法来源要求、权利人 选择—退出 机制、模型提供者承担披露训练内容的义务3个方面设置适用限制条件,明晰版权人权益与生成式人工智能数据训练合法性的界限。 开发生成式人工智能模型,需要以海量文本、图像、视频等包含受版权保护的作品作为语料进行数据训练,若未经权利人许可,则面临版权侵权风险。数据训练中的作品使用行为构成侵权抑或合理使用,已成为实践中相关纠纷的核心争议焦点。我国合理使用制度采用封闭式的立法技术,现行著作权法穷尽式列举的合理使用条款无法涵盖这一新兴场景下的作品使用行为。因此,在期待司法予以能动回应的同时,有必要探索如何革新著作权法规则,以明晰版权人权益与生成式人工智能数据训练合法性的界限,兼顾版权保护与产业发展。 纳入合理使用范畴 笔者认为,基于生成式人工智能数据训练对作品使用具有转换性目的的技术本质,可以考虑将其纳入合理使用范畴。生成式人工智能是计算机深度学习算法的一大应用,其通过数据训练提取、学习文字、图像、音符等符号的分布规律和组合特征。海量数据训练旨在增强生成模型的泛化性能,即确保模型能够准确处理来自相同数据分布的新样本,使其面对未知用户指令仍能灵活生成内容。可见,作品作为训练语料的意义在于提高生成模型类似于人类学习过程中的 理解 能力,而非再现作品的具体表达并供公众欣赏其艺术价值。实际上,如果模型因过度记忆训练语料而输出与语料实质相似的内容,将被视为技术错误。 将生成式人工智能数据训练纳入合理使用范畴使之合法化,也符合著作权法促进文学艺术作品创作与传播的公共利益要求。经过技术的不断迭代,人工智能已能生成外观上与人类创作作品几乎无异的内容,在质量上能够满足一定程度的欣赏需求。例如,中央广播电视总台推出的微短剧《中国神话》,借助 文生图 图生视频 等生成式人工智能技术拓展了人们对神话的常规想象,再通过经典意象和当下人类社会的深度链接,给观众带来了前所未有的视听享受。作为人类创作的辅助工具,生成式人工智能可以丰富创作素材,提升创作效率与质量,由此促进文艺繁荣。因此,为解决人工智能版权侵权风险与其作品使用需求之间的矛盾,合理使用是具有正当性的制度选择。 合理确定限制条件 由于版权作品被用于数据训练能够创造商业收益,且高质量的生成内容可能构成对版权作品潜在市场的竞争替代,因此,作品用于数据训练事实上已成为人工智能时代新的作品利用形式,如何保障权利人的利益是不容忽视的问题。在合理使用的具体规则中,应当通过适用限制条件的合理设计解决此问题。参考域外的立法探索,可以从合法来源要求、权利人 选择—退出 机制、模型提供者承担披露训练内容的义务3方面进行限制。 合法来源要求意味着作品应当是通过订阅等合同安排获得权利人授权,或是基于合理使用、法定许可等规则而合法接触的,否则将作品用于数据训练仍需获得授权。通过这一限制,权利人仍能够保护其版权内容,通过收取访问费用等方式保障其经济利益。需注意的是,还应明确权利人仍能够采取技术保护措施。对于已设置反爬虫措施或防抓取措施的网络内容,经破解后接触作品的,也属于非法接触,排除合理使用规则的适用。 选择—退出 机制赋予权利人主动决定其作品是否参与生成式人工智能数据训练的权利。这一机制在实践中已被广泛应用,成为平衡技术进步与版权保护的重要工具。例如,法国音乐作曲家、作者和出版者协会在2023年10月发表声明,称将选择退出其曲目作品的机器学习,表示使用其曲目作品须获得授权,并明确协商利用条件。再如,某人工智能公司创建了网站,该网站允许创作者选择退出生成模型的训练数据集,截至2024年4月已有10亿余件艺术作品退出。公众耳熟能详的谷歌、微软、Open AI公司亦通过扩展爬虫协议,为权利人提供便捷的选项,允许他们将网络作品排除在相关模型训练之外。 选择—退出 机制介于数据训练使用作品的授权模式和传统合理使用模式二者之间,是人工智能时代加强权利人保护与促进产业发展二者间的妥协方案。在这一机制下,除非权利人主动行使退出权,否则作品原则上可被用于数据训练而无需个别授权,由此能够降低版权许可的高昂成本,也缓解了因获得许可困难而导致的训练语料匮乏,以及因此加剧的算法偏见等问题。同时,区别于传统合理使用模式偏向绝对性的自由无偿使用,版权人有权保留其作品被无偿地用于数据训练,通过行使选择退出权以此换取协商议价空间,增强在许可谈判中的议价能力。 选择—退出 机制的灵活方案能够适应技术变革,既考虑到人工智能时代对数据处理的需求,又兼顾权利人的合法权益,有助于解决传统合理使用模式可能对权利人造成不合理损害的适用困境。 模型提供者承担披露训练内容的义务,这一要求根植于生成式人工智能数据训练的固有不可追溯特性与日益增长的透明度需求之中。以聊天机器人等大型语言模型为例,在其数据训练过程中,海量的书籍等文本资料被转化为数十亿计的序列数据,随后,算法会计算这些序列中每个语词后续语词出现的概率。然而,由于模型最终仅保留了原始语料的概率统计表示形式,因此,基于此类模型输出的句子、文章等具体内容,往往难以追溯其特定的原始来源。 正是基于这一背景,要求模型提供者公开其训练内容,以提升数据训练过程的透明度,显得尤为重要。这一做法不仅能够有效保障权利人对其作品使用情况的知情权,而且还是权利人有效行使退出权的重要前提。换言之,权利人只有充分了解其作品如何被用于模型训练后,才能做出是否允许其作品被用于此类用途的决定。 此外,训练内容的公开披露还有助于简化输出端可能出现的侵权判断过程。当监督机构或权利人需要判断某一作品是否被非法地、专门用于生成实质性相似的表达时,公开的训练内容将成为重要的参考依据,从而大大降低侵权判定的难度和复杂性。因此,模型提供者披露训练内容的义务,不仅是透明度和知情权保障的体现,也是维护创作生态健康、促进技术创新与版权保护和谐共生的关键一环。
明确人工智能数据训练的版权边界