行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业专题报告：DeepSeekR1，强化学习+知识蒸馏，比肩O1

信息技术 2025-01-22 财通证券灰灰

DeepSeek-R1模型发布及核心特点

DeepSeek于1月20日发布DeepSeek-R1系列模型，包括DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill系列，旨在对标OpenAI o1正式版，并在推理能力上实现突破。

1. 大规模强化学习技术

DeepSeek-R1-Zero：首次完全摒弃监督微调（SFT），仅通过强化学习（RL）训练，在AIME 2024上取得71.0%的pass@1得分，与OpenAI o1-0912相当，展现纯RL训练的潜力，但存在可读性差和语言混用问题。
DeepSeek-R1：在R1-Zero基础上引入冷启动数据和多阶段训练（推理导向RL、拒绝采样、SFT、全场景RL），提升应用能力，但在非中英语言处理和软件工程任务上仍有不足。

2. 知识蒸馏技术

DeepSeek-R1-Distill系列：将R1的推理能力蒸馏至小模型（1.5B-70B参数），结果显示蒸馏效果显著优于直接RL训练，例如R1-Distill-Qwen-32B在AIME 2024上取得72.6%的pass@1得分，远超直接RL训练的模型。
结论：蒸馏技术能有效传递大模型的推理能力，为小模型发展提供新方向。

3. API定价及商业化潜力

DeepSeek-R1 API定价远低于OpenAI同类产品（输入tokens 1元/4元，输出tokens 16元），有助于开发者加速功能迭代，但存在语言混合、提示敏感等问题，需进一步优化。

4. 投资建议

重点关注基础设施领域公司（如英伟达、海光信息等），同时关注全球模型厂商和学界进展。

5. 风险提示

技术迭代、商业化落地、政策支持及宏观经济风险。

核心结论

强化学习可激发大模型推理潜能，减少对标注数据的依赖。
知识蒸馏技术能有效提升小模型的推理能力，推动小模型发展。
DeepSeek-R1的高性价比API定价具有商业化潜力，但需解决语言混合和提示敏感等问题。

DeepSeek-R1发布，对标OpenAI o1正式版。1月20日，DeepSeek正式发布一系列DeepSeek-R1模型，包括DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill系列。DeepSeek-R1模型推理能力优异，基准测试表现与OpenAI-o1-1217相当，且API服务定价远低于OpenAI同类产品。大规模强化学习，激发大模型推理潜能：DeepSeek-R1-Zero在技术路线上实现了突破性创新，成为首个完全摒弃监督微调环节、完全依赖强化学习训练的大语言模型，证明了无监督或弱监督学习方法在提升模型推理能力方面的巨大潜力。在此基础上，DeepSeek-R1对R1-Zero进行了改进。通过引入冷启动数据，并历经推理导向强化学习、拒绝采样、监督微调以及全场景强化学习的多阶段训练，充分发挥了强化学习的自学习和自进化能力。知识蒸馏技术，让小模型也能“聪明”推理：DeepSeek团队深入探索了将R1的推理能力蒸馏到更小模型中的潜力，发现经过R1蒸馏的小模型在推理能力上实现了显著提升，甚至超过了在这些小模型上直接进行强化学习的效果，证明了R1学到的推理模式具有很强的通用性和可迁移性，能够通过蒸馏有效传递给其他模型。这些结论为业界提供了新的启示：对小模型而言，蒸馏优于直接强化学习，大模型学到的推理模式在蒸馏中得到了有效传递。 DeepSeek-R1高性价比API定价，极具商业化落地潜力：DeepSeek-R1 API服务定价为每百万输入tokens 1元（缓存命中）/4元（缓存未命中），每百万输出tokens 16元，远低于可比大模型API服务。DeepSeek-R1的高性价比API定价有助于开发者在使用后加速模型的功能迭代，从而解决目前模型存在的不足。强化学习与知识蒸馏，DeepSeek引领大小模型创新之路：对于大模型，DeepSeek-R1-Zero展示的无SFT的强化学习技术为大模型开发者提供了一种新的训练范式，即通过强化学习来激发模型的内在潜力，从而在多个领域实现更高效、更精准的推理能力。对于小模型，DeepSeek-R1-Distill系列通过知识蒸馏技术，成功将大模型的推理能力传递给小模型，实现了小模型在推理任务上的显著提升，引领了小模型的发展方向。投资建议：建议重点关注基础设施领域的公司，如英伟达、海光信息、寒武纪、协创数据、英维克、中科曙光、浪潮信息、润泽科技、欧陆通、曙光数创、申菱环境、东阳光等，同时持续关注全球各大模型厂商、学界的创新进展。风险提示：技术迭代不及预期的风险；商业化落地不及预期的风险；政策支持不及预期风险；全球宏观经济风险。 1DeepSeek-R1发布，对标OpenAI o1正式版 DeepSeek-R1正式发布。1月20日，DeepSeek正式发布了一系列DeepSeek-R1模型，并上传R1系列的技术报告和各种信息。DeepSeek此次共发布三组模型：DeepSeek-R1-Zero：大规模使用强化学习（RL）技术，没有任何监督微调（SFT）； DeepSeek-R1：在强化学习前融入冷启动数据，多阶段训练； DeepSeek-R1-Distill系列：DeepSeek-R1中蒸馏推理能力到小型密集模型，参数规模分别为1.5B、7B、8B、14B、32B和70B。图1.DeepSeek发布DeepSeek-R1模型 DeepSeek-R1模型推理能力优异，比肩OpenAI o1正式版。DeepSeek-R1在AIME 2024上获得了79.8%的成绩，略高于OpenAI-o1-1217。在MATH-500上，它获得了97.3%的惊人成绩，表现与OpenAI-o1-1217相当，并明显优于其他模型。在编码相关的任务中，DeepSeek-R1在代码竞赛任务中表现出专家水平，在Codeforces上获得了2029Elo评级，在竞赛中表现优于96.3%的人类参与者。对于工程相关的任务，DeepSeek-R1的表现略优于OpenAI-o1-1217。图2.DeepSeek-R1与OpenAI同类产品的基准测试比较 2大规模强化学习：激发大模型推理潜能 2.1DeepSeek-R1-Zero：以强化学习完全取代监管微调 DeepSeek-R1-Zero在技术路线上实现了突破性创新，成为首个完全摒弃监督微调（Supervised Fine-Tuning，简称SFT）环节、完全依赖强化学习（Reinforcement Learning，简称RL）训练的大语言模型。传统上，SFT作为大模型训练的核心环节，需要先通过人工标注数据进行监督训练，再结合强化学习进行优化，这一范式曾被认为是ChatGPT成功的关键技术路径。而DeepSeek-R1-Zero创新性地采用纯强化学习训练框架，以DeepSeek-V3-Base为基础，通过群组相对策略优化（Group Relative Policy Optimization，简称GRPO）算法实现训练效率与模型性能的双重提升。该算法通过构建智能体群体间的相对优势评估机制，在策略优化过程中最大化群体得分，同时设计了包含准确性奖励和格式规范奖励的多维度奖励模型，确保生成内容在保持正确性的基础上具备清晰的推理逻辑。图3.随着RL训练推进，DeepSeek-R1-Zero的AIME 2024基准测试成绩稳定且持续提升随着RL训练逐步推进，DeepSeek-R1-Zero的性能稳定且持续提升，证明了RL算法的有效性。实证数据显示，在AIME 2024基准测试中，模型平均pass@1得分从初始的15.6%持续提升至71.0%，最终达到与OpenAI o1-0912相当的性能水平。这一技术突破不仅验证了强化学习在提升大模型推理能力方面的有效性，更揭示了语言模型通过自主演化机制实现能力跃迁的可能性，为人工智能的自主学习范式提供了重要的实践范例。图4.DeepSeek-R1-Zero与OpenAI的o1模型的测试成绩比较 DeepSeek-R1-Zero在训练过程中会出现“顿悟”现象（Aha Moment），模型会自发地重新评估之前的步骤，并进行反思，即重新审视并评估之前的步骤，还会探索解决问题的替代方法，类似于人类的“灵光一现”。这种自发涌现的复杂行为，展示了纯RL训练的巨大潜力，也为理解AI的学习机制提供了新的视角。图5.DeepSeek-R1-Zero中间版本的“顿悟现象” DeepSeek-R1-Zero并非没有缺陷，纯强化学习训练因为完全没有人类监督数据的介入，存在着可读性差和语言混用问题的缺陷。但DeepSeek-R1-Zero在推理能力上的成功，证明无监督或弱监督学习方法在提升模型推理能力方面的巨大潜力，对于难以获取大量高质量标注数据的领域具有重要意义。 2.2DeepSeek-R1：引入冷启动与多阶段训练 DeepSeek-R1在R1-Zero的基础上进行了改进，保留大规模强化学习训练的同时对齐真实场景，通过在引入冷启动数据（cold-start data）后，历经推理导向强化学习（Reasoning-oriented Reinforcement Learning）、拒绝采样和监督微调（Rejection Sampling and Supervised Fine-Tuning）、全场景强化学习（Reinforcement Learning for all Scenarios）的多阶段训练解决DeepSeek-R1-Zero的缺陷，提升模型的应用能力。引入冷启动数据：冷启动数据是指在训练初期用于初始化模型的数据，有助于模型建立基本的推理能力。针对DeepSeek-R1-Zero的可读性和语言混杂问题，DeepSeek-R1通过引入数千条高质量的、包含长推理链（ChainofThought,简称CoT）的冷启动数据，对DeepSeek-V3-Base模型进行了初始微调，从而显著提升了模型的可读性和多语言处理能力。值得注意的是，在收集冷启动数据时，DeepSeek以CoT作为示例进行了少量样本提示，直接促使模型生成带有反思和验证的详细答案，从而强化了冷启动数据的综合质量。推理导向强化学习：在冷启动数据的基础上，DeepSeek团队使用与DeepSeek-R1-Zero相同的大规模强化学习训练过程，重点提升模型在推理密集型任务（如编码、数学、科学和逻辑推理）上的性能。为了解决语言混合问题，引入了语言一致性奖励，鼓励模型在CoT中使用目标语言。最终，推理任务的准确性和语言一致性奖励相结合，形成奖励信号，用于指导模型的训练。拒绝采样和监督微调：在强化学习接近收敛时，结合拒绝采样和多领域的数据集，生成包含推理数据和非推理数据的新SFT数据。与之前的冷启动数据不同，这一阶段的SFT数据不仅包含推理任务，还涵盖了其他领域的数据，例如写作、角色扮演、问答等，以提升模型的通用能力。对于这类非推理类数据，DeepSeek采用了与DeepSeek-V3相同的处理流程，并复用了DeepSeek-V3的SFT数据集。在通过提示回答问题之前，DeepSeek会调用DeepSeek-V3来生成潜在的CoT，并最终收集了大约20万个与非推理训练样本相关的数据。全场景强化学习：使用包含推理数据和非推理数据的SFT数据集对模型进行微调，进行第二轮强化学习，以进一步优化模型的推理能力和通用性。在推理数据上，使用基于规则的奖励模型；在非推理数据上，使用奖励模型来捕捉人类在复杂场景中的偏好。此外，还分别对模型的帮助性和无害性进行训练，以确保模型输出对用户友好且安全。图6.DeepSeek-R1的基准测试成绩在多个维度超越V3以及OpenAI、Anthropic的主流模型相较于DeepSeek-V3模型，DeepSeek-R1在功能调用、多轮对话等方面的能力较弱。在处理非中英语言查询时，DeepSeek-R1容易出现语言混合的问题，对提示较为敏感，且在少样本提示的情况下性能会下降。在软件工程任务上，DeepSeek-R1相较于DeepSeek-V3的提升也不够明显。然而，从整体来看，DeepSeek-R1在DeepSeek-V3-Base模型的基础上，先利用少量高质量的冷启动数据进行微调，随后再进行强化学习。这种方法结合了监督学习和强化学习的优势，既可以利用人类的先验知识来引导模型，又可以发挥强化学习的自学习和自进化能力。 3知识蒸馏技术：让小模型也能“聪明”推理 DeepSeek团队深入探索了将R1的推理能力蒸馏到更小模型中的潜力，利用DeepSeek-R1生成的800K数据对Qwen和Llama系列的多个小模型进行了微调，并发布了DeepSeek-R1-Distill系列模型。图7.DeepSeek-R1蒸馏模型 DeepSeek团队发现经过R1蒸馏的小模型在推理能力上实现了显著提升，甚至超过了在这些小模型上直接进行强化学习的效果。对比实验显示，直接在Qwen-32B-Base上进行的强化学习的DeepSeek-R1-Zero-Qwen-32B仅达到QwQ-32B-Preview的水平，而经过R1蒸馏的Qwen-32B模型DeepSeek-R1-Distill-Qwen-32B则远超两者，证明了R1学到的推理模式具有很强的通用性和可迁移性，能够通过蒸馏有效传递给其他模型。图8.QwQ-32B-Preview与经过强化学习和R1蒸馏Qwen-32B模型的基准测试成绩对比这一技术方向为业界提供了新的启示：对小模型而言，蒸馏优于直接强化学习，大模型学到的推理模式在蒸馏中得到了有效传递。例如，R1-Distill-Qwen-32B在AIME2024上取得了72.6%的惊人成绩，在MATH-500上得分94.3%，在LiveCodeBench上得分57.2%，这些结果显著优于之前的开源模型，并与o1-mini相当。图9.DeepSeek-R

点击免费查看完整报告

计算机行业专题报告：DeepSeekR1，强化学习+知识蒸馏，比肩O1

DeepSeek-R1模型发布及核心特点

1. 大规模强化学习技术

2. 知识蒸馏技术

3. API定价及商业化潜力

4. 投资建议

5. 风险提示

核心结论

你可能感兴趣

传媒互联网行业周报：OpenAI o1模型发布，强化学习有望突破Scaling Law瓶颈

财通计算机李飞飞团队s1模型知识蒸馏技术实现小样本高性价比训练

AI算力系列16强化学习成为前沿方向o1继续推动scalinglaw算力升级20240919

索与学习的展：从强化工学学角重现 o1 的路线图

“学海拾珠”系列之二百三十：“知识”嵌入型深度强化学习在多元资产配置中的应用

计算机行业周报：清华等机构开源强化学习框架RLinf，字节发布原生GUI智能体UI-TARS-2

计算机行业周报：DeepSeek应用上线20天日活超2000万，R1模型强化学习技术突破

量化专题报告：StockFormer：基于Transformer的强化学习模型探究

2024消费者金融知识学习偏好及行业宣教洞察报告

计算机行业周报：OpenAI发布o1模型，推理能力迎重大突破，继续重点推荐算力及应用侧标的

计算机行业专题报告：DeepSeekR1，强化学习+知识蒸馏，比肩O1

你可能感兴趣

传媒互联网行业周报：OpenAI o1模型发布，强化学习有望突破Scaling Law瓶颈

财通计算机李飞飞团队s1模型知识蒸馏技术实现小样本高性价比训练

AI算力系列16强化学习成为前沿方向o1继续推动scalinglaw算力升级20240919

索与学习的 展 ： 从强化工学学角重现 o1 的路线图

“学海拾珠”系列之二百三十：“知识”嵌入型深度强化学习在多元资产配置中的应用

计算机行业周报：清华等机构开源强化学习框架RLinf，字节发布原生GUI智能体UI-TARS-2

计算机行业周报：DeepSeek应用上线20天日活超2000万，R1模型强化学习技术突破

量化专题报告：StockFormer：基于Transformer的强化学习模型探究

2024消费者金融知识学习偏好及行业宣教洞察报告

计算机行业周报：OpenAI发布o1模型，推理能力迎重大突破，继续重点推荐算力及应用侧标的

索与学习的展：从强化工学学角重现 o1 的路线图