您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [致富证券]:中国宏观经济月报:DeepSeek的抄袭争议——蒸馏技术的使用 - 发现报告

中国宏观经济月报:DeepSeek的抄袭争议——蒸馏技术的使用

2025-02-11 杨曦 致富证券 杨框子
报告封面

2025/02/11 中国宏观经济研究员杨曦010-66555831xi_yang@chiefgroup.com.hk DeepSeek 的抄袭争议——蒸馏技术的使用 随着 DeepSeek R1 和 V3 的迅速走红,模型蒸馏这一原本较为冷门的技术术语也随之进入公众视野。外界对 DeepSeek 的主要质疑之一,是其模型可能通过从其他先进模型中提取知识而构建,这也引发了 OpenAI 对其“抄袭”的指控。 在达沃斯论坛上,DeepMind 的首席执行官 Demis Hassabis 表示,DeepSeek 的模型确实表现出了一些“令人惊讶”的特性,但他也坦言,“对 DeepSeek 模型的具体工作原理并不完全了解,尤其是它在多大程度上依赖于其他美国公司模型的成果”。1 月 29 日,彭博社援引知情人士的消息称,微软的安全研究人员在 2023 年秋季发现 DeepSeek 的员工通过 OpenAI 的 API 获取了大量数据,暗示这些数据可能被用于训练 V3 或 R1 模型,然而,OpenAI 并未提供确凿的证据。 蒸馏技术并非抄袭 在机器学习领域,蒸馏技术是一种常见的优化方法,其核心思想是将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)中。这一过程旨在保留大模型的核心性能,同时显著减少模型的大小和计算需求,使其更适合在资源有限的环境中部署。 通俗地说,这就像一位经验丰富的教授向一位新生传授专业知识。教授代表教师模型,而新生作为学生模型,通过吸收这些知识来完成学习过程。正如学生在学习过程中吸收了前人的智慧并不等同于直接抄袭前人的作品一样,模型蒸馏也并非简单的复制。 蒸馏技术的概念最早由被誉为“AI 教父”的 Geoffrey Hinton 在 2015 年的一篇论文中提出。他在文中明确指出,蒸馏(Distillation)并非复制大模型的架构或代码,而是提取大模型中所包含的知识(knowledge)。因此,蒸馏的本质是知识迁移,而非整体架构的抄袭。 DeepSeek-V3 对蒸馏技术的应用 V3 和 R1 模型的技术论文详细展示了 DeepSeek 在蒸馏技术上的具体实践。简而言之,DeepSeek通过优化训练数据,帮助小型模型更高效地学习。在 V3 模型的开发过程中,DeepSeek 利用其强大的教师模型——DeepSeek-R1 系列的推理能力,生成了 80 万条训练样本,用于后续的模型训练。DeepSeek 在论文中指出:“我们从 DeepSeek-R1 系列模型中提取了推理思维链(CoT),并将其整合到标准的大语言模型(LLMs)中,尤其是 DeepSeek-V3。我们的流水线将 R1 的验证和反思模式无缝集成到 V3 中,显著提升了其推理性能。” 除了使用从 R1 系列模型中提取的 80 万条思维链样本训练 V3 外,DeepSeek 还利用这些样本对较小的基础模型(如 Qwen 和 Llama 系列)进行了微调。这一过程无需额外的强化学习(RL)阶段,从而大幅提高了蒸馏效率。在技术论文中,DeepSeek 表示,经过这种后训练的 Qwen 系列模型“表现显著优于之前的版本,并与 o1-mini 相当”。DeepSeek 进一步指出:“我们证明了大型模型的推理模式可以被提取并应用于小型模型中”,这为大模型的后训练优化开辟了一条新的路径。 在基于开源模型进行蒸馏的基础上,DeepSeek 能够以较低的成本实现卓越的性能,这并非所有公司都能轻易复制的。DeepSeek 的成功更多依赖于其高效的算力调度和模型优化能力,而不仅仅是蒸馏技术本身。 蒸馏技术的优势与挑战 蒸馏技术的应用本身并无不妥,尤其对于资源有限的小型企业而言,它能够显著降低数据构建成本,并快速实现成果。此外,大模型在实际应用中的场景往往较为有限,而蒸馏技术能够将复杂庞大的模型转化为更小巧、高效的版本,从而扩展其应用范围,使更多研究实验室和小型组织能够参与到人工智能的创新中。 DeepSeek 的成功也表明,通过蒸馏技术控制成本的小型科技企业同样可以在 AI 应用和用户体验方面展现出强大的创新能力,尤其是在产品快速迭代和市场化方面具有显著优势,特别是在 C 端市场的表现上。 全球许多 AI 初创公司也在采用多种大模型的蒸馏融合技术,形成了所谓的“多专家模型”(MoE)。这种蒸馏模型在某些情况下甚至可能超越原始模型的性能,因为它具备更强的泛化能力,能够整合更丰富的信息,从而提升最终表现。 然而,学生模型的性能往往难以突破原始模型的固有能力上限,这就像存在一个“隐性天花板”,限制了模型在新领域或复杂任务中的扩展性。尤其是在处理多模态数据(如图像与文本融合)时,学生模型的推理能力常常受限于教师模型的固有模式,难以实现深层次的创新。 模型蒸馏技术是人工智能领域的一项重要创新,尤其在资源受限的场景中具有显著优势。虽然 DeepSeek 的成功证明了蒸馏技术在模型优化和应用中的巨大潜力,但是,蒸馏技术并非万能,其效果受到多种因素的限制。未来,蒸馏技术将与其他技术结合,推动人工智能领域的进一步发展。同时,大型科技公司在基座模型和前沿研究上的持续投入,仍将是保持行业领先地位的关键。蒸馏技术只是众多技术中的一种,其未来发展将依赖于多种技术的协同创新。 研究员声明 主要负责撰写本研究报告全部或部分内容的研究分析员在此声明:(1)该研究员以勤勉的职业态度,独立、客观地出具本报告,本报告清晰准确地反映了该研究员的研究观点;(2)该研究员所得报酬的任何组成部分无论是在过去、现在还是将来均不会直接或间接地与研究报告所表述的具体建议或观点相联系。 一般声明 本报告由香港致富证券有限公司(以下简称“致富证券”)制作,报告中的信息均来源于公开资料,本公司对这些信息的准确性和完整性不作任何保证。报告中的内容和意见仅供参考,并不构成对所述证券买卖的出价和征价。本公司及本公司员工对使用本报告及其内容所引发的任何直接或间接损失概不负责。本公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易,还可能为这些公司提供或争取提供投资银行、财务顾问或者金融产品等服务。 市场有风险,投资需谨慎。投资者不应将本报告为作出投资决策的惟一参考因素,亦不应认为本报告可以取代自己的判断。在决定投资前,如有需要,投资者务必向本公司或其他专业人士咨询并谨慎决策。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议。投资者务必注意,其据此做出的任何投资决策与本公司、本公司员工或者关联机构无关。 本报告版权归致富证券所有。未经本公司的明确书面特别授权或协议约定,除法律规定的情况外,任何人不得对本报告的任何内容进行发布、复制、编辑、改编、转载、播放、展示或以其他任何方式非法使用本报告的部分或者全部内容,否则均构成对本公司版权的侵害,本公司有权依法追究其法律责任。 本报告内的所有意见均可在不作另行通知之下作出更改。本报告的作用纯粹为提供信息,并不应视为对本报告内提及的任何产品买卖或交易的专业推介、建议、邀请或要约。 香港 香港致富证券有限公司深圳代表处深圳福田区福华路 399 号中海大厦6 楼电话:(86755) 33339666传真:(86755) 33339665