《中国知识产权报》2025年8月22日第10版刊发了中心师生文章,题为《数据蒸馏如何“过滤”著作权风险?》。作者:焦和平,西安交通大学法学院教授、博士生导师;唐文菁,西安交通大学法学院硕士生。

编者按
数据蒸馏是一种新兴的机器学习技术,其核心在于从大规模数据集中提取关键信息,生成一个规模更小但更具代表性的合成数据集,从而在保持模型性能的同时,显著降低数据存储和计算成本。新技术的广泛应用推动了人工智能技术快速发展,但同时也带来著作权保护问题,这也是当前业界关注的焦点。那么,如何化解技术发展带来的版权风险?如何平衡各方利益?且看本文一一分析。
在人工智能技术不断更新迭代的当下,人工智能大模型 DeepSeek凭借低成本、高性能获得广泛关注,这主要得益于数据蒸馏的运用。数据蒸馏是一种模型压缩技术,其核心功能在于利用性能优越的教师模型指导轻量级的学生模型,后者利用经过前者处理后的数据进行训练,能够大幅提升训练效率。然而,数据蒸馏在为模型训练提供便利的同时,也存在着著作权风险。明确风险化解路径,是推动人工智能产业良性发展的前提。
明晰法律风险
在提出化解对策之前,需厘清数据蒸馏的著作权风险。具体而言,学生模型在其输入端、输出端存在不同的著作权侵权风险。
首先,在学生模型输入端,如果学生模型未经许可利用教师模型的生成内容,可能构成侵权。目前的司法实践和学界尚未就生成内容的可版权性问题达成一致,这种不确定性本身便构成风险。司法实践中,一些法院对人工智能涉及的著作权案件作出的判决并不一致。如有的法院在相关案件中认定涉案图片具有独创性,能够构成作品并受著作权法保护;有的法院在相关案件中则以涉案图片未体现原告的独创性智力投入为由,否认涉案图片构成作品。
学界对此也存在理论分歧。赞成者认为,如果人类对生成内容存在实质性贡献,生成内容则能够构成作品,赋予其可版权性符合著作权法的激励目的;反对者则认为,生成内容由机器自身的算法和素材决定,人类的介入行为不属于“创作”,故应否定其可版权性。此外,学界也未就生成内容的权利归属问题达成一致。
在明确上述问题之前,学生模型始终具有侵犯教师模型生成内容著作权的不确定性风险。倘若认定生成内容构成作品,且权利归属明确,学生模型的蒸馏行为则可能落入著作权控制范围。在数据蒸馏的过程中,学生模型将获取的生成内容转换为适用于机器学习的计算机语言,并存储至服务器中,属于著作权法意义上的复制行为;学生模型有选择性地编排生成内容,对其进行人工标注、整理和汇总,并形成具有独创性的训练数据集,涉及汇编行为或改编行为。可见,若肯定生成内容的可版权性,学生模型的上述行为则会落入著作权法第十条规定的权利控制范围内,从而产生著作权侵权风险。
其次,在学生模型输出端,如果学生模型的输出结果与教师模型的训练数据符合“接触+实质性相似”,则可能构成侵权。此处的侵权客体既包括存在于训练数据中的现有作品,也包括符合作品构成要件的训练数据集。一方面,只要模型训练依托于互联网环境,“接触”要件便具有符合的可能。另一方面,二者是否在思想表达上存在同一性,需要在个案中加以认定。如果学生模型研发者未采取充分技术措施,或使用者进行恶意引导,使其在输出时反刍教师模型的训练数据,则可能构成对现有作品权利人或训练数据集权利人的侵犯。具体而言,可能侵犯复制权、改编权和信息网络传播权。
其一,复制权侵权风险。《纽约时报》曾称,OpenAI的模型几乎能完全再现其报道原文。如果学生模型对出现上述情况的教师模型进行学习,由于二者在推理决策方面存在高度相似,学生模型则同样可能输出侵权内容。其二,改编权侵权风险。如果学生模型在输出相关作品的基础上,产生新的表达,则涉及改编行为。在全球首例 AIGC(人工智能生成内容)平台侵权案中,由于涉案网站生成的图片部分或完全复制了相关作品的独创性表达,并在此基础上形成了新特征,法院便认定其构成改编权侵权。其三,信息网络传播权侵权风险。如果学生模型通过网络向公众提供侵权内容,使公众可以在其选定的时间和地点获得作品,则涉及信息网络传播行为。由于人工智能大多包含网络发布环节,故难以有效规避这一侵权风险。
探索化解路径
人工智能产业的良性发展离不开制度保障,然而,现有著作权法尚不能回应数据蒸馏带来的法律风险。因此,有必要结合利益平衡原则,明确数据蒸馏属于合理使用,从而化解著作权风险。
笔者认为,在蒸馏行为的定性上,应当结合利益平衡原则。利益平衡原则的内涵在于实现个人利益与公共利益的统一。一方面,学生模型并不会过分损害教师模型的利益。有观点认为,蒸馏行为属于转换性使用,不应将其纳入侵权。排除教师模型为开源模型的情况,学生模型无法直接获取教师模型的代码、算法等内在架构,只能通过调用输出端口等方式,学习和模仿教师模型的决策逻辑。同时,数据蒸馏并非学生模型采取的唯一训练方式,其目的在于降低训练成本,而非复刻教师模型,故不会对教师模型产生过分损害。
另一方面,数据蒸馏的推广运用有利于满足公共利益。首先,有利于促进人工智能产业的协调发展。如今,我国持续推进“人工智能+”行动,支持大模型的广泛应用,数据蒸馏便是落实该要求的关键技术之一。其次,有利于打破技术壁垒,促进公平竞争。数据蒸馏可以减少模型训练对原始数据的依赖,使中小企业无需在收集训练数据时付出海量成本,也能够训练出性能不错的学生模型,从而获取一定竞争优势。最后,有利于满足公众对于科技成果的需要。有观点提出,数字社会催生了“第四代人权”,即“数字人权”,它包括数据信息公平利用权等新兴权利。当中小企业利用数据蒸馏打破技术壁垒、创造更多科技成果时,社会公众便能够享受科技红利,“数字人权”也随之得到维护。
明确数据蒸馏的合理使用属性,符合利益平衡原则的价值取向。合理使用制度的创设便是为了限制著作权人对作品的垄断性利益,以满足社会公众对于作品传播和使用的合理需求。如果数据蒸馏对公共利益的贡献超过对权利人利益的损害,则应当援引合理使用制度。具体而言,可选择解释论路径,通过法律解释将数据蒸馏纳入现行合理使用制度,也可选择立法论路径,直接新增“人工智能训练”例外。考虑到人工智能技术发展迅速,长期借由法律解释调整不利于制度适用的稳定性,因此建议采取第二种方式,扩张我国著作权法第二十四条具体列举的合理使用情形,即尽快在著作权法中新增“为训练生成式人工智能使用他人已经发表的作品”的具体情形,将数据蒸馏行为纳入合理使用制度中,从而为学生模型的训练提供更明确的规则指引和制度保障。(作者单位:西安交通大学法学院)
编辑:罗思琪
审核:周宗熙