您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [北京大学]:2025年DeepSeek-R1&Kimi 1.5及类强推理模型开发解读报告 - 发现报告

2025年DeepSeek-R1&Kimi 1.5及类强推理模型开发解读报告

信息技术 2025-03-03 陈博远 北京大学 Max
报告封面

陈博远 北京大学2022级“通班”主要研究方向:大语言模型对齐与可扩展监督https://cby-pku.github.io/https://pair-lab.com/ Outline ➢DeepSeek-R1开创RL加持下强推理慢思考范式新边界 ➢DeepSeek-R1 Zero及R1技术剖析 ➢Pipeline总览\DeepSeek-V3 Base\DeepSeek-R1 Zero及R1细节分析➢RL算法的创新:GRPO及其技术细节 ➢DeepSeek-R1背后的Insights & Takeaways:RL加持下的长度泛化\推理范式的涌现➢DeepSeek-R1社会及经济效益 ➢技术对比探讨 ➢STaR-based Methods vs. RL-based Methods强推理路径对比(DS-R1\Kimi-1.5\o-series)➢蒸馏vs.强化学习驱动:国内外现有各家技术路线对比分析及Takeaways➢PRM& MCTS的作用➢从文本模态到多模态➢其他讨论:Over-Thinking过度思考等➢未来方向分析探讨 ➢模态穿透赋能推理边界拓展:Align-DS-V➢合成数据及Test-Time Scaling:突破数据再生产陷阱➢强推理下的安全:形式化验证Formal Verification\审计对齐Deliberative Alignment ➢补充拓展:DeepSeek-V3解读 DeepSeek-R1开创RL加持下强推理慢思考范式新边界 ➢OpenAI o1开启后训练Post-Training时代下的RL新范式:后训练扩展律Post-Training Scaling Law ➢DS-R1独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI的认可 ➢如何通过有效的Test-Time Scaling和Train-Time Scaling提升模型的推理能力? ➢得益于纯大规模强化学习,DeepSeek-R1具备强大推理能力与长文本思考能力,继开源来备受关注。 ➢DeepSeekR1-Zero和R1的出现再次证明了强化学习的潜力所在: ➢R1-Zero从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT);➢随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; DeepSeek-R1开创RL加持下强推理慢思考范式新边界 ➢得益于强大的推理能力与长文本思考能力,DeepSeekR1在复杂任务上表现卓越,成为开源领域的又一里程碑,标志着开源社区在与闭源大模型(如OpenAI o1系列)的竞争中迈出了关键性一步。 ➢DeepSeek-R1在数学代码任务上表现突出 ➢DeepseekR1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217。在MATH-500上,获得97.3% ➢在编码相关的任务中表现出专家水平,在Codeforces上获得了2029Elo评级,在竞赛中表现优于96.3%的人类参与者 ➢DeepSeek-R1在知识类问答上推动科学探索边界: ➢MMLU\MMLU-Pro\GPQA Diamond等STEM-related榜单上取得良好表现 ➢R1展现出强推理模型在AI-Driven Research的潜力 ➢在长文本依赖任务如FRAMEs和事实性推断任务Simple-QA上表现突出 回顾:Pre-Training Scaling Law Pre-Training Scaling Laws:预训练模型上广泛观察到的现象,协调了计算量C、模型参数量N和数据大小D之间的关系 回顾:Post-Training Scaling Law ➢Post-Training阶段,随着训练时计算量(来自RL的Training阶段)和Test-Time计算量 (例如Test-Time Search)的增长,模型性能(例如数学推理能力)也会随之提升 回顾:Post-Training Scaling Law 为什么我们需要后训练Scaling-Law ? ➢随着模型尺寸逐渐增大,预训练阶段参数Scaling Up带来的边际收益开始递减;如果想要深度提升模型推理能力和长程问题能力,基于RL的Post-Training将会成为下一个突破点。 ➢自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正,如果仅是依靠生成式方法和扩大参数规模,那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的ScalingLaws [1]。 DeepSeek-R1技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero:无需监督微调SFT,纯强化学习驱动的强推理模型 大规模推理为中心的强化学习,提升模型数学代码能力 DeepSeek-R1技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero:无需监督微调SFT,纯强化学习驱动的强推理模型 ➢奖励建模:基于规则的奖励(Rule-Based Reward) :准确率奖励+格式奖励 ➢准确率奖励Accuracy Rewards:判断答案是否是正确的➢格式奖励Format Rewards:规劝模型生成答案的过程是 ➢没有使用Reward Model,因为ORM和PRM等基于神经网络的都可能遭受reward hacking而retraining reward model需要大量的计算资源,可能会复杂化整个流程 ➢训练模板:选择最简单的Thinking Process,直接观察到最直接的RL过程下的表现 基于规则的奖励(Rule-Based Reward) :准确率奖励+格式奖励 DeepSeek-R1技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero:无需监督微调SFT,纯强化学习驱动的强推理模型 ➢推理为中心大规模强化学习:组相对策略优化(GRPO)+瞄准Reasoning推理任务 ➢自我迭代提升Self-Evolution:随着训练步数的增长,模型的thinking response length逐渐增加(对应着test-time computation increasing) ➢Aha moment:自然学会增加更多的推理时间,反思评价先前步骤、探索其他方法 DeepSeek-R1技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示 ➢传统RLHF背景下,SFT通常被认为是不可或缺的一步,其逻辑先用大量人工标注的数据来让模型初步掌握某种能力(如对话或者语言风格),然后再用RL来进一步优化性能 ➢DeepSeek-R1系列跳过对于大规模人工标注数据的依赖 ➢无需构建和维护高质量的SFT数据集,而是让模型直接在RL环境中进行探索 ➢类比:初学者在没有老师指导的情况下,通过不断的尝试和错误来掌握一门新的技能。 ➢更重要的是,它让模型能够自由地探索解决问题的路径,而不是被预先设定的模式所束缚。 DeepSeek-R1技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示 ➢跳过SFT阶段,直接运用纯强化学习拓展推理能力边界实际上也带来了几个很重要的启示: ➢需要足够强的基座模型:基座模型(DeepSeek-V3 Base)超过了某个质量和能力阈值(671B在14.8T高质量Token上训练)(基座模型知识帮助突破推理上界,也有一些工作利用小模型复现Aha Moment得益于大规模RL和高质量推理数据); ➢大规模强化学习加持:GRPO对于强化学习训练的优化; ➢规则化奖励:绕过奖励攻陷问题,但是得益于推理问题可以进行自动化标记和验证(Self-Automated Verification and Annotation),这是与一般聊天和写作请求任务不同的; DeepSeek-R1技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示:举例-自动化标记和验证 ➢示例输入:编写python代码,该代码采用数字列表,按排序顺序返回,在开始时添加42。➢自动化验证方法: ➢利用软件检查代码补全判断是否为完整代码;➢执行Python代码检查运行情况判断是否为可运行代码;➢调用外部模块构建额外的检测单元;➢甚至可以更进一步,测量执行时间,使训练过程首选性能更高的解决方案; ➢以上均可以作为小批量训练(Mini-Batch)和连续训练过程中的奖励信号 DeepSeek-R1技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示:举例-自动化标记和验证 ➢示例输入:编写python代码,该代码采用数字列表,按排序顺序返回,在开始时添加42。 ➢基于规则进行验证,并在Mini-Batch中提供奖励信号; DeepSeek-R1技术Pipeline总览 ➢DeepSeek-R1 Zero的问题:长推理过程可读性差、语言混合,帮助性低 ➢Research Questions: ➢能否在Zero基础上兼顾推理性能的同时,提升模型的帮助性和安全性?例如产生Clear & CoherentCoT并且展现出通用能力的模型R1; ➢能否利用一些高质量反思数据集做Cold Start从而加速RL的收敛或帮助提升推理表现 DeepSeek-R1技术Pipeline总览 ➢冷启动Cold Start ➢数据准备:few-shot long cot data,详细带反思和验证的数据集 DeepSeek-v3-Base(671B) ➢双重验证:由人类注释者和R1-zero生成的高质量链式思考(Chain-of-Thought,CoT)数据,部分样本长度达到10,000Token ➢成效:提供一些Human Prior\显著提升了语言的语义连贯性、可读性和基本推理能力。 反思数据冷启动Cold Start双重验证 ➢推理为中心RLReasoning-Oriented RL ➢增加了大规模的RL训练过程:和DeepSeek-R1 Zero基本一致,主要是提升Reasoning的能力,包括coding\mathematics\logicreasoning等带有明确解答过程的问题 ➢语言一致性奖励:引入language consistency reward衡量长推理链可读性(通过计算CoT过程中目标语言的占比) ➢推理准确率奖励:结合accuracy of reasoning tasks and reward forlanguage consistency Intermediate Model(推理链可读性更强) ➢成效:通过GRPO,模型在AIME 2024等数学基准上取得了显著提升,pass@1从15.6%提高到71.0%。此外,模型能够自发延长推理链条,展现出更强的逻辑连贯性。 Stage I:推理链可读性 DeepSeek-R1技术Pipeline总览 ➢拒绝采样和全领域SFTRejection Sampling and SFT 拒绝采样和全领域SFT ➢当上一个阶段的RL收敛之后,再进行SFT➢和之前Cold-Start的数据不同,这部分SFT主要是负责全领域 600k推理数据(Rule-based+Generative奖励) 任务 ➢600k推理任务:(1)基于规则的奖励(2)利用批判模型融合生成式奖励➢200k通用任务(writing\role-playing\general-purpose) 200k通用数据(Writing\Role-Play etc.) 全领域RLAll-Scenarios RL推理任务–规则奖励(Rule-basedReward) ➢成效:使模型在推理能力不减的前提下,语言表现更为自然,适应性更为广