对等关税新质生产力低空经济 DeepSeek AIGC 人形机器人智能驾驶大模型固态电池半导体银发经济

2025年DeepSeek-R1&Kimi 1.5及类强推理模型开发解读报告

信息技术2025-03-03陈博远北京大学M***

AI智能总结

DeepSeek-R1 是一种基于强化学习（RL）的强推理模型，由北京大学对齐小组开发。该模型在多个复杂任务上表现出色，成为开源领域的重要里程碑。

主要特点包括：

强推理与长文本思考能力：DeepSeek-R1 具备强大的推理能力和长文本思考能力，在数学代码、知识问答等任务上表现出色。
RL 加持下的强推理慢思考范式：DeepSeek-R1 Zero 和 R1 的出现证明了强化学习的潜力，R1-Zero 完全依赖强化学习，不使用人类专家标注的监督微调（SFT）。
技术亮点：
- 纯强化学习开发推理能力：DeepSeek-R1 跳过 SFT 阶段，直接在 RL 环境中探索，节省标注成本，让模型自由探索解决问题路径。
- 大规模强化学习：DeepSeek-V3 Base 作为基座模型，超过特定质量和能力阈值，大规模 RL 激活预训练阶段积累的知识和推理能力。
- 规则化奖励：基于规则的奖励（准确率奖励和格式奖励），绕过奖励攻陷问题，适用于推理问题自动化标记和验证。
- GRPO 算法：通过构建多个模型输出的群组，计算群组内的相对奖励来估计基线，降低 RL 训练的计算成本，保证模型有效学习策略。
技术流程：
- 冷启动：利用少量高质量反思数据集加速 RL 收敛或提升推理表现。
- 双重验证：由人类注释者和 R1-zero 生成的高质量链式思考（CoT）数据，提升语言语义连贯性、可读性和基本推理能力。
- 全领域 RL：提升推理和对话能力，同时具备更安全的交互性能。
未来方向：
- 模态穿透：拓展推理边界，实现从文本模态到多模态的推理。
- 合成数据与 Test-Time Scaling：突破数据再生产陷阱，实现数据高效利用。
- 强推理下的安全：通过形式化验证和审计对齐，确保模型安全可靠。

DeepSeekR1Kimi15及类强推理模型开发解读陈博远北京大学2022级“通班” 主要研究方向：大语言模型对齐与可扩展监督 httpscbypkugithubiohttpspairlabcom 北大对齐小组 Outline2 DeepSeekR1开创RL加持下强推理慢思考范式新边界 DeepSeekR1Zero及R1技术剖析 Pipeline总览DeepSeekV3BaseDeepSeekR1Zero及R1细节分析 RL算法的创新：GRPO及其技术细节 DeepSeekR1背后的InsightsTakeaways：RL加持下的长度泛化推理范式的涌现 DeepSeekR1社会及经济效益技术对比探讨 STaRbasedMethodsvsRLbasedMethods强推理路径对比DSR1Kimi15oseries 蒸馏vs强化学习驱动：国内外现有各家技术路线对比分析及Takeaways PRMMCTS的作用从文本模态到多模态其他讨论：OverThinking过度思考等未来方向分析探讨模态穿透赋能推理边界拓展：AlignDSV 合成数据及TestTimeScaling突破数据再生产陷阱强推理下的安全：形式化验证FormalVerification审计对齐DeliberativeAlignment 补充拓展：DeepSeekV3解读 DeepSeekR1开创RL加持下强推理慢思考范式新边界3 OpenAIo1开启后训练PostTraining时代下的RL新范式：后训练扩展律PostTrainingScalingLaw DSR1独立发现了一些通往o1路上的核心理念，并且效果还好到受到了OpenAI的认可如何通过有效的TestTimeScaling和TrainTimeScaling提升模型的推理能力？得益于纯大规模强化学习，DeepSeekR1具备强大推理能力与长文本思考能力，继开源来备受关注。 DeepSeekR1Zero和R1的出现再次证明了强化学习的潜力所在： R1Zero从基础模型开始构建，完全依赖强化学习，而不使用人类专家标注的监督微调（SFT）；随着训练步骤增加，模型逐渐展现出长文本推理及长链推理能力；随着推理路径增长，模型表现出自我修复和启发式搜索的能力； DeepSeekR1开创RL加持下强推理慢思考范式新边界4 得益于强大的推理能力与长文本思考能力，DeepSeekR1在复杂任务上表现卓越，成为开源领域的又一里程碑，标志着开源社区在与闭源大模型（如OpenAIo1系列）的竞争中迈出了关键性一步。 DeepSeekR1在数学代码任务上表现突出 DeepseekR1在AIME2024上获得了798的成绩，略高于OpenAIo11217。在MATH500上，获得973 的惊人成绩，表现与OpenAIo11217相当。在编码相关的任务中表现出专家水平，在Codeforces上获得了2029Elo评级，在竞赛中表现优于963的人类参与者 DeepSeekR1在知识类问答上推动科学探索边界： MMLUMMLUProGPQADiamond等STEMrelated榜单上取得良好表现 R1展现出强推理模型在AIDrivenResearch的潜力在长文本依赖任务如FRAMEs和事实性推断任务 SimpleQA上表现突出回顾：PreTrainingScalingLaw5 PreTrainingScalingLaws预训练模型上广泛观察到的现象，协调了计算量C、模型参数量N和数据大小D之间的关系回顾：PostTrainingScalingLaw6 PostTraining阶段，随着训练时计算量（来自RL的Training阶段）和TestTime计算量（例如TestTimeSearch）的增长，模型性能（例如数学推理能力）也会随之提升 1httpsopenaicomindexlearningtoreasonwithllms PostTrainingScalingLaws下训练时计算量多了一个新的变量：SelfPlay探索时LLM Inference的计算量回顾：PostTrainingScalingLaw7 为什么我们需要后训练ScalingLaw 随着模型尺寸逐渐增大，预训练阶段参数ScalingUp带来的边际收益开始递减；如果想要深度提升模型推理能力和长程问题能力，基于RL的PostTraining将会成为下一个突破点。自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正，如果仅是依靠生成式方法和扩大参数规模，那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的ScalingLaws1。 1TrainingVerifierstoSolveMathWordProblemshttpsarxivorgpdf211014168 2ScalingLLMTestTimeComputeOptimallycanbeMoreEffectivethanScalingModelParameters 推理为中心的大规模强化学习 LargeScaleReasoningOrientedRL DeepSeekR1技术剖析：DeepSeekR1Zero8 DeepSeekR1Zero DeepSeekR1Zero无需监督微调SFT，纯强化学习驱动的强推理模型 DeepSeekv3Base671B 基于规则的奖励 RuleBasedReward 大规模推理为中心的强化学习，提升模型数学代码能力RL驱动下自然涌现长文本推理能力 DeepSeekR1技术剖析：DeepSeekR1Zero9 DeepSeekR1Zero无需监督微调SFT，纯强化学习驱动的强推理模型奖励建模：基于规则的奖励RuleBasedReward准确率奖励格式奖励准确率奖励AccuracyRewards判断答案是否是正确的格式奖励FormatRewards规劝模型生成答案的过程是think和think 没有使用RewardModel因为ORM和PRM等基于神经网络的都可能遭受rewardhacking 而retrainingrewardmodel需要大量的计算资源，可能会复杂化整个流程训练模板：选择最简单的ThinkingProcess，直接观察到最直接的RL过程下的表现基于规则的奖励RuleBasedReward准确率奖励格式奖励 DeepSeekR1技术剖析：DeepSeekR1Zero10 DeepSeekR1Zero无需监督微调SFT，纯强化学习驱动的强推理模型推理为中心大规模强化学习：组相对策略优化（GRPO）瞄准Reasoning推理任务自我迭代提升SelfEvolution：随着训练步数的增长，模型的thinkingresponselength逐渐增加（对应着testtimecomputationincreasing） Ahamoment自然学会增加更多的推理时间，反思评价先前步骤、探索其他方法 “Aha”MomentRL驱动下自然涌现LongCoT能力 DeepSeekR1技术剖析：DeepSeekR1Zero11 DeepSeekR1Zero的关键启示传统RLHF背景下，SFT通常被认为是不可或缺的一步，其逻辑先用大量人工标注的数据来让模型初步掌握某种能力（如对话或者语言风格），然后再用RL来进一步优化性能 DeepSeekR1系列跳过对于大规模人工标注数据的依赖无需构建和维护高质量的SFT数据集，而是让模型直接在RL环境中进行探索类比：初学者在没有老师指导的情况下，通过不断的尝试和错误来掌握一门新的技能。这种自主学习的方式，不仅节省了大量的标注成本；更重要的是，它让模型能够自由地探索解决问题的路径，而不是被预先设定的模式所束缚。 DeepSeekR1技术剖析：DeepSeekR1Zero12 DeepSeekR1Zero的关键启示跳过SFT阶段，直接运用纯强化学习拓展推理能力边界实际上也带来了几个很重要的启示：需要足够强的基座模型：基座模型DeepSeekV3Base超过了某个质量和能力阈值（671B在148T高质量Token上训练）（基座模型知识帮助突破推理上界，也有一些工作利用小模型复现AhaMoment得益于大规模RL和高质量推理数据）；大规模强化学习加持：GRPO对于强化学习训练的优化；规则化奖励：绕过奖励攻陷问题，但是得益于推理问题可以进行自动化标记和验证（SelfAutomatedVerificationandAnnotation，这是与一般聊天和写作请求任务不同的； DeepSeekR1技术剖析：DeepSeekR1Zero13 DeepSeekR1Zero的关键启示：举例自动化标记和验证示例输入编写python代码，该代码采用数字列表，按排序顺序返回，在开始时添加42。自动化验证方法：利用软件检查代码补全判断是否为完整代码；执行Python代码检查运行情况判断是否为可运行代码；调用外部模块构建额外的检测单元；甚至可以更进一步，测量执行时间，使训练过程首选性能更高的解决方案；以上均可以作为小批量训练MiniBatch和连续训练过程中的奖励信号 DeepSeekR1技术剖析：DeepSeekR1Zero14 DeepSeekR1Zero的关键启示：举例自动化标记和验证示例输入编写python代码，该代码采用数字列表，按排序顺序返回，在开始时添加42。基于规则进行验证，并在MiniBatch中提供奖励信号； 1httpsnewsletterlanguagemodelscoptheillustrateddeepseekr1 DeepSeekR1技术Pipeline总览15 DeepSeekR1Zero的问题：长推理过程可读性差、语言混合，帮助性低 ResearchQuestions 能否在Zero基础上兼顾推理性能的同时，提升模型的帮助性和安全性？例如产生 ClearCoherentCoT并且展现出通用能力的模型R1；能否利用一些高质量反思数据集做ColdStart从而加速RL的收敛或帮助提升推理表现 DeepSeekR1技术Pipeline总览16 DeepSeekv3Base671B 拒绝采样和全领域SFT 200k通用数据（WritingRolePlayetc） 600k推理数据 RulebasedGenerative奖励 DeepSeekv3Base671B 冷启动ColdStart 双重验证反思数据基于规则的奖励RuleBasedReward 正确率奖励格式奖励全领域RLAllScenariosRL 通用任务偏好建模 RewardModel 推理任务规则奖励 RulebasedReward 推理为中心的RL 正确率奖励流畅性奖励数学代码推理任务推理为中心的大规模强化学习GRPOLargeScaleReasoningOrientedRL DeepSeekR1Zero IntermediateModel推理链可读性更强 DeepSeekR1 StageI推理链可读性StageII通用能力安全性 DeepSeekR1技术Pipeline总览17 DeepSeekv3Base671B 冷启动ColdStart 数据准备：fewshotlongcotdata详细带反思和验证的数据集双重验证：由人类注释者和R1zero生成的高质量链式思考 IntermediateModel 推理链可读性更强 StageI推理链可读性推理为中心的RL 正确率奖励流畅性奖励数学代码推理任务冷启动ColdStart 双重验证反思数据（ChainofThoughtCoT）数据，部分样本长度达到10000Token 成效：提供一些HumanPrior显著提升了语言的语义连贯性、可读性和基本推理能力。推理为中心RLReasoningOrientedRL 增加了大规模的R

点击免费查看完整报告

你可能感兴趣

2025年DeepSeek-R1&Kimi 1.5及类强推理模型开发解读报告

你可能感兴趣

AI 2000权威解读：全球顶尖AI人才实力“一超一强”格局初显，中国较去年增长4.5%，美国下降1.5%（附报告下载）

【电报解读】储量分别位居世界第一、第三，国家能源局要求大力推动这一类油气开发，这家公司相关技术已

地产行业周报：物业类年报预期优于开发，京沪深加强租赁监管

2025年全球医疗趋势报告：全球总览及中国大陆地区趋势解读

2025年3月新贸节「商家规则及商品规则」解读报告