DeepSeekR1Kimi15及类强推理模型开发解读 陈博远 北京大学2022级“通班” 主要研究方向:大语言模型对齐与可扩展监督 httpscbypkugithubiohttpspairlabcom 北大对齐小组 Outline2 DeepSeekR1开创RL加持下强推理慢思考范式新边界 DeepSeekR1Zero及R1技术剖析 Pipeline总览DeepSeekV3BaseDeepSeekR1Zero及R1细节分析 RL算法的创新:GRPO及其技术细节 DeepSeekR1背后的InsightsTakeaways:RL加持下的长度泛化推理范式的涌现 DeepSeekR1社会及经济效益 技术对比探讨 STaRbasedMethodsvsRLbasedMethods强推理路径对比DSR1Kimi15oseries 蒸馏vs强化学习驱动:国内外现有各家技术路线对比分析及Takeaways PRMMCTS的作用 从文本模态到多模态 其他讨论:OverThinking过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展:AlignDSV 合成数据及TestTimeScaling突破数据再生产陷阱 强推理下的安全:形式化验证FormalVerification审计对齐DeliberativeAlignment 补充拓展:DeepSeekV3解读 DeepSeekR1开创RL加持下强推理慢思考范式新边界3 OpenAIo1开启后训练PostTraining时代下的RL新范式:后训练扩展律PostTrainingScalingLaw DSR1独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI的认可 如何通过有效的TestTimeScaling和TrainTimeScaling提升模型的推理能力? 得益于纯大规模强化学习,DeepSeekR1具备强大推理能力与长文本思考能力,继开源来备受关注。 DeepSeekR1Zero和R1的出现再次证明了强化学习的潜力所在: R1Zero从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; DeepSeekR1开创RL加持下强推理慢思考范式新边界4 得益于强大的推理能力与长文本思考能力,DeepSeekR1在复杂任务上表现卓越,成为开源领域的又 一里程碑,标志着开源社区在与闭源大模型(如OpenAIo1系列)的竞争中迈出了关键性一步。 DeepSeekR1在数学代码任务上表现突出 DeepseekR1在AIME2024上获得了798的成绩,略高于OpenAIo11217。在MATH500上,获得973 的惊人成绩,表现与OpenAIo11217相当。 在编码相关的任务中表现出专家水平,在Codeforces上获得了2029Elo评级,在竞赛中表现优于963的人类参与者 DeepSeekR1在知识类问答上推动科学探索边界: MMLUMMLUProGPQADiamond等STEMrelated榜单上取得良好表现 R1展现出强推理模型在AIDrivenResearch的潜力 在长文本依赖任务如FRAMEs和事实性推断任务 SimpleQA上表现突出 回顾:PreTrainingScalingLaw5 PreTrainingScalingLaws预训练模型上广泛观察到的现象,协调了计算量C、模型参数量N和数据大小D之间的关系 回顾:PostTrainingScalingLaw6 PostTraining阶段,随着训练时计算量(来自RL的Training阶段)和TestTime计算量 (例如TestTimeSearch)的增长,模型性能(例如数学推理能力)也会随之提升 1httpsopenaicomindexlearningtoreasonwithllms PostTrainingScalingLaws下训练时计算量多了一个新的变量:SelfPlay探索时LLM Inference的计算量 回顾:PostTrainingScalingLaw7 为什么我们需要后训练ScalingLaw 随着模型尺寸逐渐增大,预训练阶段参数ScalingUp带来的边际收益开始递减;如果想要深度提升模型推理能力和长程问题能力,基于RL的PostTraining将会成为下一个突破点。 自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正,如果仅是依靠生成式方法和扩大参数规模,那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的ScalingLaws1。 1TrainingVerifierstoSolveMathWordProblemshttpsarxivorgpdf211014168 2ScalingLLMTestTimeComputeOptimallycanbeMoreEffectivethanScalingModelParameters 推理为中心的大规模强化学习 LargeScaleReasoningOrientedRL DeepSeekR1技术剖析:DeepSeekR1Zero8 DeepSeekR1Zero DeepSeekR1Zero无需监督微调SFT,纯强化学习驱动的强推理模型 DeepSeekv3Base671B 基于规则的奖励 RuleBasedReward 大规模推理为中心的强化学习,提升模型数学代码能力RL驱动下自然涌现长文本推理能力 DeepSeekR1技术剖析:DeepSeekR1Zero9 DeepSeekR1Zero无需监督微调SFT,纯强化学习驱动的强推理模型 奖励建模:基于规则的奖励RuleBasedReward准确率奖励格式奖励 准确率奖励AccuracyRewards判断答案是否是正确的 格式奖励FormatRewards规劝模型生成答案的过程是think和think 没有使用RewardModel因为ORM和PRM等基于神经网络的都可能遭受rewardhacking 而retrainingrewardmodel需要大量的计算资源,可能会复杂化整个流程 训练模板:选择最简单的ThinkingProcess,直接观察到最直接的RL过程下的表现 基于规则的奖励RuleBasedReward准确率奖励格式奖励 DeepSeekR1技术剖析:DeepSeekR1Zero10 DeepSeekR1Zero无需监督微调SFT,纯强化学习驱动的强推理模型 推理为中心大规模强化学习:组相对策略优化(GRPO)瞄准Reasoning推理任务 自我迭代提升SelfEvolution:随着训练步数的增长,模型的thinkingresponselength逐渐增加(对应着testtimecomputationincreasing) Ahamoment自然学会增加更多的推理时间,反思评价先前步骤、探索其他方法 “Aha”MomentRL驱动下自然涌现LongCoT能力 DeepSeekR1技术剖析:DeepSeekR1Zero11 DeepSeekR1Zero的关键启示 传统RLHF背景下,SFT通常被认为是不可或缺的一步,其逻辑先用大量人工标注的数据来让模型初步掌握某种能力(如对话或者语言风格),然后再用RL来进一步优化性能 DeepSeekR1系列跳过对于大规模人工标注数据的依赖 无需构建和维护高质量的SFT数据集,而是让模型直接在RL环境中进行探索 类比:初学者在没有老师指导的情况下,通过不断的尝试和错误来掌握一门新的技能。 这种自主学习的方式,不仅节省了大量的标注成本; 更重要的是,它让模型能够自由地探索解决问题的路径,而不是被预先设定的模式所束缚。 DeepSeekR1技术剖析:DeepSeekR1Zero12 DeepSeekR1Zero的关键启示 跳过SFT阶段,直接运用纯强化学习拓展推理能力边界实际上也带来了几个很重要的启示: 需要足够强的基座模型:基座模型DeepSeekV3Base超过了某个质量和能力阈值 (671B在148T高质量Token上训练)(基座模型知识帮助突破推理上界,也有一些工作利用小模型复现AhaMoment得益于大规模RL和高质量推理数据); 大规模强化学习加持:GRPO对于强化学习训练的优化; 规则化奖励:绕过奖励攻陷问题,但是得益于推理问题可以进行自动化标记和验证 (SelfAutomatedVerificationandAnnotation,这是与一般聊天和写作请求任务不同的; DeepSeekR1技术剖析:DeepSeekR1Zero13 DeepSeekR1Zero的关键启示:举例自动化标记和验证 示例输入编写python代码,该代码采用数字列表,按排序顺序返回,在开始时添加42。 自动化验证方法: 利用软件检查代码补全判断是否为完整代码; 执行Python代码检查运行情况判断是否为可运行代码; 调用外部模块构建额外的检测单元; 甚至可以更进一步,测量执行时间,使训练过程首选性能更高的解决方案; 以上均可以作为小批量训练MiniBatch和连续训练过程中的奖励信号 DeepSeekR1技术剖析:DeepSeekR1Zero14 DeepSeekR1Zero的关键启示:举例自动化标记和验证 示例输入编写python代码,该代码采用数字列表,按排序顺序返回,在开始时添加42。 基于规则进行验证,并在MiniBatch中提供奖励信号; 1httpsnewsletterlanguagemodelscoptheillustrateddeepseekr1 DeepSeekR1技术Pipeline总览15 DeepSeekR1Zero的问题:长推理过程可读性差、语言混合,帮助性低 ResearchQuestions 能否在Zero基础上兼顾推理性能的同时,提升模型的帮助性和安全性?例如产生 ClearCoherentCoT并且展现出通用能力的模型R1; 能否利用一些高质量反思数据集做ColdStart从而加速RL的收敛或帮助提升推理表现 DeepSeekR1技术Pipeline总览16 DeepSeekv3Base671B 拒绝采样和全领域SFT 200k通用数据 (WritingRolePlayetc) 600k推理数据 RulebasedGenerative奖励 DeepSeekv3Base671B 冷启动ColdStart 双重验证反思数据 基于规则的奖励RuleBasedReward 正确率奖励格式奖励 全领域RLAllScenariosRL 通用任务偏好建模 RewardModel 推理任务规则奖励 RulebasedReward 推理为中心的RL 正确率奖励流畅性奖励 数学代码推理任务 推理为中心的大规模强化学习GRPOLargeScaleReasoningOrientedRL DeepSeekR1Zero IntermediateModel推理链可读性更强 DeepSeekR1 StageI推理链可读性StageII通用能力安全性 DeepSeekR1技术Pipeline总览17 DeepSeekv3Base671B 冷启动ColdStart 数据准备:fewshotlongcotdata详细带反思和验证的数据集 双重验证:由人类注释者和R1zero生成的高质量链式思考 IntermediateModel 推理链可读性更强 StageI推理链可读性 推理为中心的RL 正确率奖励流畅性奖励 数学代码推理任务 冷启动ColdStart 双重验证反思数据 (ChainofThoughtCoT)数据,部分样本长度达到10000Token 成效:提供一些HumanPrior显著提升了语言的语义连贯性、可读性和基本推理能力。 推理为中心RLReasoningOrientedRL 增加了大规模的R