行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

rStar - Math ：小题大语建模过从我进化的深度思维思维思维思维

信息技术2025-01-08-Microsoft Research Asia风***

AI智能总结

rStar-Math：小型语言模型的自我进化深度思考

核心观点： rStar-Math 是一种基于蒙特卡洛树搜索（MCTS）的自我进化方法，旨在提升小型语言模型（SLMs）的数学推理能力，使其达到甚至超越 OpenAI o1 模型的水平，而无需依赖更强大的大型语言模型进行蒸馏。

关键创新：

代码增强的 CoT 数据合成：通过 MCTS 生成逐步验证的推理轨迹，并利用 Python 代码执行验证中间步骤的正确性，确保训练数据的质量。
过程偏好模型（PPM）：引入 PPM 作为奖励模型，通过成对排序损失训练，避免了对精确步骤级奖励分数标注的需求，提高了训练效率。
自我进化配方：通过四轮迭代，逐步提升策略 SLM 和 PPM 的能力，并扩展训练数据集，以应对更具挑战性的数学问题。

关键数据和研究结论：

性能提升：在 MATH 基准测试中，rStar-Math 将 Qwen2.5-Math-7B 的得分从 58.8% 提升至 90.0%，Phi3-mini-3.8B 的得分从 41.4% 提升至 86.4%，分别超越 o1-preview 4.5% 和 0.9%。
AIME 成绩：在 AIME 2024 竞赛中，rStar-Math 平均解决了 8/15（约 53.3%）的问题，超过 o1-preview 8.7%，以及所有开源的大规模语言模型。
消融研究：逐步验证推理轨迹的训练效果显著优于 GPT 蒸馏、随机采样和拒绝采样等基线方法。
PPM 有效性： PPM 在 System 2 推理中优于结果奖励模型（ORM）和基于 Q 值的过程奖励模型（PQM），成为性能提升的关键因素。
内在自我反省能力： rStar-Math 在解决数学问题时表现出内在的自我反省能力，能够识别并纠正错误步骤。
PPM 塑造推理边界： PPM 有效识别策略模型在深度思考过程中的关键定理应用步骤，引导策略模型生成正确的解决方案。

泛化讨论： rStar-Math 可泛化到更具挑战性的数学任务（如定理证明）和其他领域（如代码和常识推理），具有广泛的应用潜力。

未来工作：通过收集更多具有挑战性的数学问题，进一步提升 rStar-Math 的性能。

关新宇∗李丽娜张∗⋄一菲刘宁尚友兰孙一朱范杨毛杨微软亚洲研究院 Abstract 我们提出rStar-Math以证明小型语言模型（SLMs）可以在数学推理能力上与OpenAI的o1相媲美甚至超越之，而无需从更优秀的模型中进行蒸馏。rStar-Math通过蒙特卡洛树搜索（MCTS）实现“深度思考”来达到这一目标。策略 SLM执行基于 SLM 的测试时间搜索过程奖励模型。 rStar - Math 引入了三项创新，以应对培训两种 SLM 的挑战：(1)一种新颖的代码增广的 CoT 数据系统方法，该方法执行广泛的 MCTS推广以生成逐步验证的推理轨迹用来训练(2)政策SLM；一种新颖的过程奖励模型训练方法，避免了简单的按步骤评分标注，从而实现更为有效的训练。流程偏好模型 (PPM)(3); a自我进化配方在这种情况下，SLM和PPM政策是从零开始构建并逐步进化以提高推理能力。通过四轮自我进化，针对747,000个数学问题合成数百万个解决方案，rStar-Math提升了SLM的数学推理能力至业界领先水平。在MATH基准测试中，它将Qwen2.5-Math-7B的得分从58.8%提高到90.0%，将Phi3-mini-3.8B的得分从41.4%提高到86.4%，分别超越o1-preview 4.5%和0.9%。在美国数学奥林匹克（AIME）中，rStar-Math解决了平均53.3%（8/15）的问题，排名进入顶尖的20%高中生数学人才之列。代码和数据将在以下地址获取：https: / / github. com / microsoft / rStar. 1 Introduction 最近的研究表明，大型语言模型(LLM) 能够解决数学问题 [Team,2024a,Yang et al.,2024,OpenAI,2024,Liu et al.,2024]. 然而，传统的做法是让大型语言模型（LLM）在单次推理中生成完整的解决方案，类似于系统1思维 [丹尼尔,2011] - 通常会产生快速但容易出错的结果 [Valmeekam et al.,2023,OpenAI,2023] 。作为响应，测试时计算缩放 [Snell 等人。,2024,齐等人。, 2024]表明了向系统2型思维模式的转变，这种模式通过更慢、更深入的思考过程来模拟人类推理。在这种范式中，一个大语言模型（LLM）作为政策模型生成多个数学推理步骤，这些步骤随后由另一个充当奖励模型的LLM进行评估[OpenAI, 2024被认定更为正确的步骤和解决方案被选中。该过程迭代重复，最终得出最终答案。在测试时计算范式中，关键在于训练一个强大的策略模型以生成有前景的解决方案步骤，以及一个可靠的奖励模型以准确评估这些步骤，两者都依赖于高品质训练数据。不幸的是，众所周知，现成的高质量数学推理数据稀缺，合成高质量的数学数据面临着根本性的挑战。对于政策模型而言，区分错误的推理步骤与正确的步骤极具挑战性，这使得消除低质量的数据变得更加复杂。值得注意的是，在数学推理中，最终答案正确并不保证整个推理过程的正确性 [Lanham et al.,2023]. 错误的中间步骤显著降低了数据质量。至于奖励模型，过程奖励建模（PRM）通过提供对中间步骤的精细反馈显示出巨大的潜力 [Lightman 等人。,2023].然而，在这方面训练数据更加稀缺：准确的逐步反馈需要密集的人工标注努力，并且难以规模化，而那些自动注释尝试由于噪声较大的奖励分数仅取得有限的进展[Luo et al.,2024,Wang 等人。,2024c,Chen et al.,2024]. 由于上述挑战，现有的基于抽取的數據合成方法在训练策略模型时面临问题，例如扩大GPT4抽取的逐步推理（CoT）数据规模 [唐等人。,2024,Huang 等人。,2024], 已显示出递减的回报率，并且无法超越其教师模型的能力；同时，截至目前为止，训练可靠的数学推理PRM仍然是一个开放的问题。 rStar - 数学在这项工作中，我们介绍一种可自我进化的类System 2推理方法，实现了前沿的数学推首先，一种新颖的代码增广 CoT 数据合成方法，该方法执行广泛的要生成的 MCTS展开逐步验证的推理轨迹with自注释的 MCTS Q 值. 具体而言，数学问题解决过程被分解为MCTS内的多步生成。在每一步中，作为策略模型的SLM抽取候选节点，每个节点生成一个一步的推理过程（CoT）及其相应的Python代码。为了验证生成的质量，只有执行成功的Python代码的节点才被保留，从而减轻中间步骤错误的影响。此外，广泛的MCTS展开会自动根据每个中间步骤的贡献为其分配Q值：对更多通向正确答案路径有更大贡献的步骤会被赋予更高的Q值，并被视为更高质量。这确保了SLM生成的推理轨迹由正确的、高质量的中间步骤组成。理能力，在挑战性的数学竞赛基准测试中，其模型大小仅为70亿参数，与OpenAI的o1模型相当甚至有时超越之。不同于依赖于更优秀的大型语言模型（LLMs）进行数据合成的方法，rStar-Math 利用较小的语言模型（SLMs）结合蒙特卡洛树搜索（MCTS）来建立一个自我进化的过程，逐步生成更高质量的训练数据。为了实现自我进化，rStar-Math 引入了三项关键创新。其次，一种训练 SLM 作为进程偏好模型, 即一个策略网络（Policy Network, PPM）来实现所需的奖励模型（Reward Model, PRM），该模型能够可靠地为每个数学推理步骤预测一个奖励标签。PPM 利用了这样一个事实：尽管即使使用了广泛的 Monte Carlo TreeSearch (MCTS) 展开，Q 值仍然不够精确以对每个推理步骤进行评分，但 Q 值可以可靠地区分正面（正确）的步骤和负面（无关/错误）的步骤。因此，训练方法基于 Q 值构建每步的偏好对，并使用成对排序损失（pairwise ranking loss）[欧阳等人.,2022]为了优化PPM的分数预测以实现每一步推理的可靠标签，这种方法避免了直接使用Q值作为奖励标签的传统方法[Luo et al.,2024,Chen et al.,2024] ，在逐步奖励分配中固有地嘈杂和不精确。最终，我们提供了一套四轮自我进化配方，逐步构建前沿政策模型和PPM。首先，我们从公开来源收集了747,000个数学应用题数据集。在每一轮中，我们使用最新的政策模型和PPM进行蒙特卡洛树搜索（MCTS）。使用上述两种方法生成越来越高质量的训练数据以训练更强的策略模型和PPM，为下一阶段做准备。每一轮次实现逐步精炼：（1）一个更强的策略SLM，（2）一个更可靠的PPM，（3）通过PPM增强的MCTS生成更好的推理轨迹，（4）提高训练数据覆盖范围以应对更具挑战性和甚至竞争级别的数学问题。广泛的实验覆盖了四个大小不同的SLM（1.5B-7B）和七个数学推理任务，证明了rStar-Math的有效性。尤为显著的是，rStar-Math能够提升所有四个SLM的表现，甚至在挑战性的数学基准测试中达到或超过了OpenAI的o1版本。在MATH基准测试中，使用8条搜索轨迹时，rStar-Math将Qwen2.5-Math-7B的得分从58.8%提高到89.4%，将Qwen2.5-Math-1.5B的得分从51.2%提高到87.8%；使用64条轨迹时，得分分别提升至90%和88.4%，不仅超过了o1-preview的4.5%和2.6%，还与o1-mini的90%持平。在奥林匹克级别的AIME 2024竞赛中，rStar-Math平均解决了8/15（约53.3%）的问题，超过了o1-preview 8.7%，以及所有开源的大规模语言模型。为进一步验证rStar-Math的优势，我们进行了全面的实验，以证明逐步验证推理轨迹优于最先进的数据合成基线，并展示了PPM相较于结果奖励模型和基于Q值的PRM的有效性。最后，我们从rStar-Math的深度思考中总结出关键发现，包括其内在的自我反思能力和PPM对定理应用中间步骤的偏好。 2 相关工程数学数据综合. 在大型语言模型（LLM）的数学推理方面的发展主要依赖于收集高质量的逻辑推理（Co T）数据，大多数领先的方法是通过GPT提炼而来，使用前沿模型如GPT-4进行综合[Wang 等人。,2024b,郭台铭等人。,2023,Luo et al.,2023] 。著名的作品包括 NuminaMath [李佳和波鲁,2024a] 和 MetaMath [Yu 等人。,2023b] 虽然有效，但这限制了推理能力仅限于教师大语言模型的能力范围。教师大语言模型无法解决的难题将被排除在训练集之外。即使可解决的问题也可能包含难以检测的错误中间步骤。尽管使用拒绝采样方法 [袁等人。,2023,布朗等人。,2024:[它们可以提高数据质量，但不能保证正确的中间步骤。因此，扩展CoT数据的收益会递减，接近饱和状态——例如，OpenMathInstruct-2[Toshniwal 等人。,2024] 尽管数据集大小增加了 8 倍，但数学仅增长了 3.9% 。缩放测试时间计算引入了新的扩展定律，使得大语言模型（LLMs）能够在生成多个样本并使用奖励模型进行最优解选择的基础上，提升整体性能。Snell 等人。,2024,吴等人。,2024,布朗等人。,2024] 。已经提出了各种测试时间搜索方法 [Kang 等人。,2024,Wang等人。,2024a] ，包括随机抽样 [Wang 等人。,2023] 和树搜索方法 [Yao et al.,2024,郝等人。,2023,张等人。,2024b,齐等人。,2024像MCTS一样。然而，用于扩展测试时计算的开源方法在数学推理方面仅表现出有限的提升，这通常归因于策略LLM或奖励模型的限制。rStar-Math通过迭代进化策略LLM和奖励模型，实现了与OpenAI o1相当的System 2级数学推理性能。OpenAI,2024].奖励模型是有效进行系统2推理的关键但获取这些往往具有挑战性。最近的相关研究包括将大语言模型作为裁判用于验证 [郑等人。,2023,齐等人。,2024] 和专门的奖励模型，如结果奖励模型 [Yang et al.,2024,Yu 等人。,2023a] 和流程奖励模型 (PRM) [Lightman 等人。,2024] 。而 PRM 为复杂的推理提供了有希望的密集，步进级奖励信号 [Luo et al.,2024,Wang 等人。,2024c] ，收集步骤级注释仍然是一个障碍。而Kang 等人。[2024],Wang 等人。[2024a] 依靠昂贵的人工注释数据集，如 PRM800k [Lightman 等人。,2024] ，最近的方法 [Wang 等人。,2024c,Luo etal.,2024探索通过蒙特卡洛采样或MCTS实现自动注释。然而，他们在生成精确的奖励分数 3 方法论方面遇到困难，这限制了性能的提升。rStar-Math引入了一种新型的过程偏好奖励（PPM），消除了对精确步骤级奖励分数标注的需要。 3.1 设计选择用于有效系统 2 推理的 MCTS. 我们的目标是训练一个数学策略SLM（数学策略搜索模型）和一个过程奖励模型（PRM ），并将两者整合到蒙特卡洛树搜索（MCTS）中以实现系统2的深度思考。选择MCTS有两个关键原因。首先，它能够将复杂的数学问题分解为更简单的单步生成任务，从而降低数学策略SLM的难度，相比其他方法更具优势。系统 2 方法，如最佳 N [布朗等人。,2024] 或自我一致性 [Wang 等人。,2023], 这要求在一次推理中生成完整的解决方案。其次，MCTS中的逐步生成自然地为两个模型提供了步骤级别的训练数据。标准的MCTS展开会根据每一步对最终正确答案的贡献自动分配Q值，从而避免了需要人工生成的步

点击免费查看完整报告