您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [财通证券]:计算机行业专题报告:DeepSeekR1,强化学习+知识蒸馏,比肩O1 - 发现报告

计算机行业专题报告:DeepSeekR1,强化学习+知识蒸馏,比肩O1

信息技术 2025-01-22 财通证券 灰灰
报告封面

DeepSeek-R1发布,对标OpenAI o1正式版。1月20日,DeepSeek正式发布一系列DeepSeek-R1模型,包括DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill系列。DeepSeek-R1模型推理能力优异,基准测试表现与OpenAI-o1-1217相当,且API服务定价远低于OpenAI同类产品。 大规模强化学习,激发大模型推理潜能:DeepSeek-R1-Zero在技术路线上实现了突破性创新,成为首个完全摒弃监督微调环节、完全依赖强化学习训练的大语言模型,证明了无监督或弱监督学习方法在提升模型推理能力方面的巨大潜力。在此基础上,DeepSeek-R1对R1-Zero进行了改进。通过引入冷启动数据,并历经推理导向强化学习、拒绝采样、监督微调以及全场景强化学习的多阶段训练,充分发挥了强化学习的自学习和自进化能力。 知识蒸馏技术,让小模型也能“聪明”推理:DeepSeek团队深入探索了将R1的推理能力蒸馏到更小模型中的潜力,发现经过R1蒸馏的小模型在推理能力上实现了显著提升,甚至超过了在这些小模型上直接进行强化学习的效果,证明了R1学到的推理模式具有很强的通用性和可迁移性,能够通过蒸馏有效传递给其他模型。这些结论为业界提供了新的启示:对小模型而言,蒸馏优于直接强化学习,大模型学到的推理模式在蒸馏中得到了有效传递。 DeepSeek-R1高性价比API定价,极具商业化落地潜力:DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,远低于可比大模型API服务。DeepSeek-R1的高性价比API定价有助于开发者在使用后加速模型的功能迭代,从而解决目前模型存在的不足。 强化学习与知识蒸馏,DeepSeek引领大小模型创新之路:对于大模型,DeepSeek-R1-Zero展示的无SFT的强化学习技术为大模型开发者提供了一种新的训练范式,即通过强化学习来激发模型的内在潜力,从而在多个领域实现更高效、更精准的推理能力。对于小模型,DeepSeek-R1-Distill系列通过知识蒸馏技术,成功将大模型的推理能力传递给小模型,实现了小模型在推理任务上的显著提升,引领了小模型的发展方向。 投资建议:建议重点关注基础设施领域的公司,如英伟达、海光信息、寒武纪、协创数据、英维克、中科曙光、浪潮信息、润泽科技、欧陆通、曙光数创、申菱环境、东阳光等,同时持续关注全球各大模型厂商、学界的创新进展。 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。 1DeepSeek-R1发布,对标OpenAI o1正式版 DeepSeek-R1正式发布。1月20日,DeepSeek正式发布了一系列DeepSeek-R1模型,并上传R1系列的技术报告和各种信息。DeepSeek此次共发布三组模型:DeepSeek-R1-Zero:大规模使用强化学习(RL)技术,没有任何监督微调(SFT); DeepSeek-R1:在强化学习前融入冷启动数据,多阶段训练; DeepSeek-R1-Distill系列:DeepSeek-R1中蒸馏推理能力到小型密集模型,参数规模分别为1.5B、7B、8B、14B、32B和70B。 图1.DeepSeek发布DeepSeek-R1模型 DeepSeek-R1模型推理能力优异,比肩OpenAI o1正式版。DeepSeek-R1在AIME 2024上获得了79.8%的成绩,略高于OpenAI-o1-1217。在MATH-500上,它获得了97.3%的惊人成绩,表现与OpenAI-o1-1217相当,并明显优于其他模型。在编码相关的任务中,DeepSeek-R1在代码竞赛任务中表现出专家水平,在Codeforces上获得了2029Elo评级,在竞赛中表现优于96.3%的人类参与者。对于工程相关的任务,DeepSeek-R1的表现略优于OpenAI-o1-1217。 图2.DeepSeek-R1与OpenAI同类产品的基准测试比较 2大规模强化学习:激发大模型推理潜能 2.1DeepSeek-R1-Zero:以强化学习完全取代监管微调 DeepSeek-R1-Zero在技术路线上实现了突破性创新,成为首个完全摒弃监督微调(Supervised Fine-Tuning,简称SFT)环节、完全依赖强化学习(Reinforcement Learning,简称RL)训练的大语言模型。传统上,SFT作为大模型训练的核心环节,需要先通过人工标注数据进行监督训练,再结合强化学习进行优化,这一范式曾被认为是ChatGPT成功的关键技术路径。而DeepSeek-R1-Zero创新性地采用纯强化学习训练框架,以DeepSeek-V3-Base为基础,通过群组相对策略优化(Group Relative Policy Optimization,简称GRPO)算法实现训练效率与模型性能的双重提升。该算法通过构建智能体群体间的相对优势评估机制,在策略优化过程中最大化群体得分,同时设计了包含准确性奖励和格式规范奖励的多维度奖励模型,确保生成内容在保持正确性的基础上具备清晰的推理逻辑。 图3.随着RL训练推进,DeepSeek-R1-Zero的AIME 2024基准测试成绩稳定且持续提升 随着RL训练逐步推进,DeepSeek-R1-Zero的性能稳定且持续提升,证明了RL算法的有效性。实证数据显示,在AIME 2024基准测试中,模型平均pass@1得分从初始的15.6%持续提升至71.0%,最终达到与OpenAI o1-0912相当的性能水平。这一技术突破不仅验证了强化学习在提升大模型推理能力方面的有效性,更揭示了语言模型通过自主演化机制实现能力跃迁的可能性,为人工智能的自主学习范式提供了重要的实践范例。 图4.DeepSeek-R1-Zero与OpenAI的o1模型的测试成绩比较 DeepSeek-R1-Zero在训练过程中会出现“顿悟”现象(Aha Moment),模型会自发地重新评估之前的步骤,并进行反思,即重新审视并评估之前的步骤,还会探索解决问题的替代方法,类似于人类的“灵光一现”。这种自发涌现的复杂行为,展示了纯RL训练的巨大潜力,也为理解AI的学习机制提供了新的视角。 图5.DeepSeek-R1-Zero中间版本的“顿悟现象” DeepSeek-R1-Zero并非没有缺陷,纯强化学习训练因为完全没有人类监督数据的介入,存在着可读性差和语言混用问题的缺陷。但DeepSeek-R1-Zero在推理能力上的成功,证明无监督或弱监督学习方法在提升模型推理能力方面的巨大潜力,对于难以获取大量高质量标注数据的领域具有重要意义。 2.2DeepSeek-R1:引入冷启动与多阶段训练 DeepSeek-R1在R1-Zero的基础上进行了改进,保留大规模强化学习训练的同时对齐真实场景,通过在引入冷启动数据(cold-start data)后,历经推理导向强化学习(Reasoning-oriented Reinforcement Learning)、拒绝采样和监督微调(Rejection Sampling and Supervised Fine-Tuning)、全场景强化学习(Reinforcement Learning for all Scenarios)的多阶段训练解决DeepSeek-R1-Zero的缺陷,提升模型的应用能力。 引入冷启动数据:冷启动数据是指在训练初期用于初始化模型的数据,有助于模型建立基本的推理能力。针对DeepSeek-R1-Zero的可读性和语言混杂问题,DeepSeek-R1通过引入数千条高质量的、包含长推理链(ChainofThought,简称CoT)的冷启动数据,对DeepSeek-V3-Base模型进行了初始微调,从而显著提升了模型的可读性和多语言处理能力。值得注意的是,在收集冷启动数据时,DeepSeek以CoT作为示例进行了少量样本提示,直接促使模型生成带有反思和验证的详细答案,从而强化了冷启动数据的综合质量。 推理导向强化学习:在冷启动数据的基础上,DeepSeek团队使用与DeepSeek-R1-Zero相同的大规模强化学习训练过程,重点提升模型在推理密集型任务(如编码、数学、科学和逻辑推理)上的性能。为了解决语言混合问题,引入了语言一致性奖励,鼓励模型在CoT中使用目标语言。最终,推理任务的准确性和语言一致性奖励相结合,形成奖励信号,用于指导模型的训练。 拒绝采样和监督微调:在强化学习接近收敛时,结合拒绝采样和多领域的数据集,生成包含推理数据和非推理数据的新SFT数据。与之前的冷启动数据不同,这一阶段的SFT数据不仅包含推理任务,还涵盖了其他领域的数据,例如写作、角色扮演、问答等,以提升模型的通用能力。对于这类非推理类数据,DeepSeek采用了与DeepSeek-V3相同的处理流程,并复用了DeepSeek-V3的SFT数据集。在通过提示回答问题之前,DeepSeek会调用DeepSeek-V3来生成潜在的CoT,并最终收集了大约20万个与非推理训练样本相关的数据。 全场景强化学习:使用包含推理数据和非推理数据的SFT数据集对模型进行微调,进行第二轮强化学习,以进一步优化模型的推理能力和通用性。在推理数据上,使用基于规则的奖励模型;在非推理数据上,使用奖励模型来捕捉人类在复杂场景中的偏好。此外,还分别对模型的帮助性和无害性进行训练,以确保模型输出对用户友好且安全。 图6.DeepSeek-R1的基准测试成绩在多个维度超越V3以及OpenAI、Anthropic的主流模型 相较于DeepSeek-V3模型,DeepSeek-R1在功能调用、多轮对话等方面的能力较弱。在处理非中英语言查询时,DeepSeek-R1容易出现语言混合的问题,对提示较为敏感,且在少样本提示的情况下性能会下降。在软件工程任务上,DeepSeek-R1相较于DeepSeek-V3的提升也不够明显。然而,从整体来看,DeepSeek-R1在DeepSeek-V3-Base模型的基础上,先利用少量高质量的冷启动数据进行微调,随后再进行强化学习。这种方法结合了监督学习和强化学习的优势,既可以利用人类的先验知识来引导模型,又可以发挥强化学习的自学习和自进化能力。 3知识蒸馏技术:让小模型也能“聪明”推理 DeepSeek团队深入探索了将R1的推理能力蒸馏到更小模型中的潜力,利用DeepSeek-R1生成的800K数据对Qwen和Llama系列的多个小模型进行了微调,并发布了DeepSeek-R1-Distill系列模型。 图7.DeepSeek-R1蒸馏模型 DeepSeek团队发现经过R1蒸馏的小模型在推理能力上实现了显著提升,甚至超过了在这些小模型上直接进行强化学习的效果。对比实验显示,直接在Qwen-32B-Base上进行的强化学习的DeepSeek-R1-Zero-Qwen-32B仅达到QwQ-32B-Preview的水平,而经过R1蒸馏的Qwen-32B模型DeepSeek-R1-Distill-Qwen-32B则远超两者,证明了R1学到的推理模式具有很强的通用性和可迁移性,能够通过蒸馏有效传递给其他模型。 图8.QwQ-32B-Preview与经过强化学习和R1蒸馏Qwen-32B模型的基准测试成绩对比 这一技术方向为业界提供了新的启示:对小模型而言,蒸馏优于直接强化学习,大模型学到的推理模式在蒸馏中得到了有效传递。例如,R1-Distill-Qwen-32B在AIME2024上取得了72.6%的惊人成绩 , 在MATH-500上得分94.3%, 在LiveCodeBench上得分57.2%,这些结果显著优于之前的开源模型,并与o1-mini相当。 图9.DeepSeek-R