新闻中心

NEWS CENTER

视点|DEEPSEEK蒸馏行为初步法律分析


Published:

2025-02-06

DeepSeek(深度求索)如同一道闪电,照亮中国AI大模型超车之路,并在国际人工智能领域引发巨大震撼。其震撼不但是节能、高效、开源,更在于其算法的另辟蹊径,其算法据推测与ChatGPT最新内测版实力相当,也引起以ChatGPT为首的国外领先人工智能大模型指控其通过蒸馏技术使用其大模型的成型数据。 春节假期成了技术男的欢乐海洋。作为很可能第一顺位被人工智能替代的律师,还是忍不住试着从法律角度分析下ChatGPT等公司指控DeepSeek通过蒸馏技术违约(非法)使用其数据结果一事,并简要分析AI大模型算法保护问题,本文分析均基于假设,仅限于学术研究。如反馈良好,将深入探讨学习之。

DeepSeek(深度求索)如同一道闪电,照亮中国AI大模型超车之路,并在国际人工智能领域引发巨大震撼。其震撼不但是节能、高效、开源,更在于其算法的另辟蹊径,其算法据推测与ChatGPT最新内测版实力相当,也引起以ChatGPT为首的国外领先人工智能大模型指控其通过蒸馏技术使用其大模型的成型数据。

 

春节假期成了技术男的欢乐海洋。作为很可能第一顺位被人工智能替代的律师,还是忍不住试着从法律角度分析下ChatGPT等公司指控DeepSeek通过蒸馏技术违约(非法)使用其数据结果一事,并简要分析AI大模型算法保护问题,本文分析均基于假设,仅限于学术研究。如反馈良好,将深入探讨学习之。

 

一、关于大数据蒸馏技术

 

 

 

大数据蒸馏技术(Data Distillation)的起源可以追溯到机器学习和数据科学领域的需求,尤其是在深度学习模型训练中。随着数据规模的爆炸式增长,处理海量数据成为一项挑战。蒸馏技术的核心思想是通过提取数据的核心特征或知识,减少数据量,同时保留关键信息,从而降低计算成本并提高效率。该技术最早由Hinton等人在2015年提出,主要用于模型压缩。通过训练一个小模型(学生模型)来模仿一个大模型(教师模型)的行为,从而将大模型的知识“蒸馏”到小模型中。后来扩展到数据层面,旨在从大规模数据集中提取出一个小而精的数据子集,能够近似代表原始数据集的特征和分布。

 

由此可见,大数据蒸馏技术是指从大规模数据集中提取出核心信息或知识,生成一个规模更小但信息密度更高的数据集或模型的技术。其目标是通过减少数据量或模型复杂度,同时保持或接近原始数据或模型的性能。像极了酿酒过程中的精酿,通过不断的蒸馏去除杂质,保留精华。通过该技术,将复杂模型的知识转移到简单模型中;或者从大规模数据集中提取出一个小规模但具有代表性的子集。蒸馏技术近年来在学术界和工业界得到了广泛研究和应用,尤其是在深度学习、自然语言处理(NLP)和计算机视觉(CV)领域。知识蒸馏和数据蒸馏的相关论文在顶级会议(如NeurIPS、ICML、CVPR等)上频繁发表,研究内容包括蒸馏算法的优化、应用场景的扩展等。许多科技公司(如Google、Facebook、OpenAI等)将蒸馏技术应用于模型压缩和部署,以提高模型的效率和可扩展性。一些蒸馏技术的实现已经开源,例如TensorFlow、PyTorch等框架中提供了知识蒸馏的相关工具和示例。蒸馏技术及其生成的数据具有重要的商业和技术价值,因此各大人工智能公司或平台均采取了技术加密、加水印(防伪措施)、限制访问权限和采取模型保护等技术保护措施。

 

除了以上技术保护措施,行业领先的人工智能公司还采取了对蒸馏技术申请专利;对蒸馏过程中生成的代码、模型和数据通过著作权进行保护;以及通过技术协议进行规范和约束。加之通过与合作伙伴或用户签订数据使用协议,明确数据的使用范围、限制和责任;通过与员工和合作伙伴签订保密协议,防止技术泄露。

 

二、初步法律分析

 

 

 

1、从著作权角度

根据《伯尔尼公约》和《世界知识产权组织版权条约》(WIPO Copyright Treaty),原创作品(包括软件和数据)受著作权保护。但是,完全通过人工智能产生的作品或数据,没有自然人的参与,根据美国或者欧盟相关法令和判例,该作品因为没有作者而无法得到保护,这也是目前中国司法实践主流观点。假定ChatGPT等公司的数据结果已经经过人工校准或参与,系上述国际公约所规定的受保护的作品,如果DeepSeek未经授权使用ChatGPT等公司的数据结果,可能构成著作权侵权。

 

2、从专利权角度:

如果ChatGPT等公司的技术或数据处理方法已申请专利,假定DeepSeek未经许可使用该专利的蒸馏技术则可能涉及专利侵权。

 

3、从合同法和反法角度

如果DeepSeek与ChatGPT等公司之间存在合同关系,且合同中明确禁止使用或复制数据结果,则假定DeepSeek将该数据结果进行蒸馏后用于其自身大模型的行为可能构成违约。同时在人工智能领域未经授权使用他人数据或技术,或通过蒸馏其他竞品公司的数据用于自身产品,且该产品与该数据来源公司的产品进行竞争,则可能涉嫌不正当竞争行为。

 

4、从数据保护法角度:

如果涉及欧盟用户数据,假定DeepSeek进行蒸馏的行为可能违反《通用数据保护条例》(GDPR),该条例对数据的收集、存储和使用有严格规定。美国等发达国家对数据保护均有类似规定或案例,笔者将在搜集整理完成后再一一论述。

 

5、《与贸易有关的知识产权协议》(TRIPS)

该协议要求成员国保护知识产权,包括著作权和专利权。虽然WTO目前遭到美国为首的国家的弃用,但因假定DeepSeek的行为可能违反TRIPS协议,也可能会提交WTO进行纠纷解决。如果ChatGPT等公司与DeepSeek所在国家有双边或多边协议,相关协议可能对知识产权保护和数据使用有具体规定,也可能被引用。

 

6、从行业惯例角度:

在科技行业,开源和共享技术是常见做法,但通常需要遵守特定的许可证(如GPL、MIT等)。如果DeepSeek未遵守相关许可证,可能违反行业惯例或用户协议。

 

因此,如果DeepSeek被指控通过蒸馏技术违约(非法)使用ChatGPT等公司数据属实,很可能会出现2025年人工智能赛道最大的法律纠纷案件。因涉及复杂的法律、行业和技术问题,且处在中美关系微妙的当下,该问题对法律界和科技界均为最大的机遇和挑战。本文仅是基于假设进行法律分析,并希望能够从禁止知识产权滥用和促进科技进步角度达成各方共赢。

关键词: