您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:模仿、探索和自我提升:慢思维推理系统的复现报告 - 发现报告

模仿、探索和自我提升:慢思维推理系统的复现报告

信息技术2024-12-12Yingqian Min、 Zhipeng Chen、 Jinhao Jiang未知机构W***
AI智能总结
查看更多
模仿、探索和自我提升:慢思维推理系统的复现报告

迎钱敏1∗, 陈志鹏1∗, 姜锦浩1∗、陈洁1, 邓佳1、胡一文1、汤一如如1、王嘉鹏1、程晓雪1, 华通歌1, 赵欣韦恩1†, 刘正2、王中原2 Ji - Rong Wen,1 1中国人民大学高陵人工智能学院。2BAAI. {yingqianm, 志鹏 _ chen, jiangjinhao, jrwen} @ ruc. edu. cn batmanfly @gmail. com Abstract 最近,诸如o1之类的慢思考推理系统在解决复杂推理任务方面展现出了显著的能力。这些系统通常会在回应查询之前进行一个扩展的思考过程,从而能够生成更为详尽、准确和有根据的解决方案。这些系统主要由行业开发和维护,其核心技术并未公开披露。作为回应,越来越多的研究界研究旨在探索这些强大推理系统的技术基础。在此基础上,本文呈现了对类似o1的推理系统的实现复现报告。我们引入了一种“模仿、探索和自我改进”的框架作为主要的技术方法来训练推理模型。在初始阶段,我们使用精简的长文思考数据对推理模型进行微调,使其能够激活慢思考模式。随后,模型被鼓励通过生成多个策略来探索具有挑战性的问题,这可能导致越来越高质量的轨迹,最终导向正确的答案。此外,模型通过迭代优化其训练数据集来进行自我改进。为了验证该方法的有效性,我们在三个具有挑战性的基准上进行了广泛的实验。实验结果表明,我们的方法在这些基准上的表现与工业级推理系统相当。我们已将资源发布在https://github.com/RUCAIBox/Slow_Thinking_with_LLMs。 1 Introduction 最近 , 慢思维推理系统 , 以 OpenAI 的 o1 为例3显著增强了大型语言模型(LLMs)在处理复杂任务的能力[1][2][3][4][5]。与之前的推理方法不同[6][7][8],这些系统采用了测试时缩放的方法,允许在响应查询之前有更多的时间进行思考。这一思考过程也体现在生成长内部推理步骤的文本生成过程中,被称为思想, 以发现合适的解决方案。通过分析生成的思想数据,我们可以观察到大型语言模型 (LLM)表现出的各种复杂的推理行为,如规划、分而治之、自我完善、总结和回溯。最初,可能会令人惊讶的是,LLMs能够 即使我们知道特定的训练或推理策略被用来支持这一能力,管理如此复杂的推理过程仍然是一项挑战。 为了揭示背后的机制,研究社区一直在积极探讨慢思考推理系统,并进行了广泛的研究以调查各种可能的方法来重现类似o1的系统[9, 10, 11, 12, 13, 14, 15]。然而,这些研究往往局限于特定领域(。e.g.,数学领域)或使用相对较弱的基础模型开发,则实施的系统将显著劣于行业系统如o1。open一个能够在所有关键细节公开披露的情况下,轻松跨领域泛化,并达到与行业水平系统相当性能的O1级推理系统,仍然是一个具有挑战性的任务。 基于文献中现有的研究努力,我们的团队致力于推进o1-like系统复现的工作。为了实现这一目标,我们在十一月发布了一份技术报告[9],详细介绍了用于解决数学问题的推理框架的实现。该框架包括策略模型、奖励模型和搜索算法。在推断过程中,策略模型由奖励模型引导进行树搜索,以找到数学问题的正确解。我们对所探索的训练方法和推理方法进行了详尽讨论,以便实现这样的系统。 尽管取得了令人鼓舞的进步,我们很快意识到之前报告中实施的框架可能不是通往开发类似o1系统的正确路径。我们识别出了三个主要挑战,这些挑战限制了其潜在价值。首先,我们训练的领域特定奖励模型在不同领域间缺乏泛化能力。其次,在推理阶段执行树搜索非常耗时,使其在实际应用中不切实际。第三,虽然测试时的扩展性是可以实现的,但我们仍然无法在训练时进行扩展以提升模型性能。这些考虑促使我们重新审视创建类似o1的推理系统的技术方法。 我们的方法受到两项近期进展的主要启发。首先,DeepSeek 和 Qwen 已发布 o1 类系统API 或检查点 [16, 17],使我们能够直接观察实际的思想过程,而不仅仅是 o1 中总结的版本。这对于我们获取初步尝试所需的初始标注数据至关重要。其次,我们实证发现,使用少量长链思考数据微调语言模型(LLM)可以显著提高其在复杂推理任务上的表现,这与之前的多项研究 [12, 18] 的发现一致。基于这些考虑,我们推测 o1 可能实现了包含内部思考和最终解决方案的一次解码过程。换句话说,复杂的奖励模型和显式的树搜索算法可能不是支持推理过程所必需的。这一推测指导了我们开发此项工作的努力,旨在重现 o1类系统。 具体来说 , 我们首先提出了一个概念框架 , 包括 “模仿、探索和自我完善你在开发我们方法的过程中,在模仿阶段,LLM 应该学会先生成内部思考,然后再生成解决方案来应对任务。由于这种输出格式与标准响应有显著差异,因此需要额外的演示数据来支持这一模仿过程。这些数据不仅能够帮助模型理解如何生成内部思考,还能指导其生成最终的解决方案。格式坚持(i.e.,遵循缓慢的思维反应) 和能力启发(i.e.,激活一种慢思考模式)。在探索阶段,LLM 应通过模仿阶段提供的演示数据来扩展其能力。我们认为,在复杂任务中进行广泛的探索(通常使用卷积或束搜索等技术)对于帮助识别棘手问题的正确解决方案至关重要。通过探索生成的增强输出对提升模型的能力具有重要意义。最后,LLM 应利用通过探索获得的成功轨迹进一步增强其能力。持续获得比模型本身能轻易生成的更高质量的训练数据是具有挑战性的,而采用探索或搜索方法可以解决这一问题。一旦建立这一三阶段训练周期,LLM 的能力可以逐步提高,特别是在处理困难任务方面。 在提出此建议后,在本技术报告中,我们实现了一个类似o1的推理系统,该系统在具有挑战性的推理任务中能够取得令人鼓舞的结果。具体而言,我们从开放的类似o1的API或检查点收集少量慢思考响应,并将这些响应作为演示数据对基础模型进行微调。我们发现,这种简单的策略有效地激发了大语言模型(LLMs)的慢思考能力,并且与所需输出格式(包括思考过程和解决方案)相一致。我们仔细研究了如何构建演示数据集的方法, 混合来自不同领域或具有不同难度级别的解决方案。此外,我们专注于解决探索性难题。我们采用简单的搜索策略以获得正确的轨迹。i.e.,那些能够导向真实答案的响应(即ground-truth answers),对于微调模型而言,在单次滚动中难以获得。此外,我们实施不同的策略以实现自我改进,这些策略包括监督微调和直接偏好优化。通过这种方法进行细化训练,我们观察到显著的改进。 为了与行业竞争对手进行比较,我们在多个基准上进行了评估,包括MATH-OAI [19]和AIME。4, 和GPQA [20]。实验结果表明,当将演示实例扩展到3,900个时,我们基于蒸馏训练的变体甚至接近了一些工业级系统的性能。此外,仅使用1,100个蒸馏后的演示实例作为种子数据,我们的探索和自我改进方法也显示出了非常有前景的结果。 2 方法 在本节中 , 我们详细介绍了实现 o1 类推理系统的技术方法5. 2.1 Overview 在这项工作中 , 我们提出了一种三阶段培训方法 -模仿、探索和自我完善—to开发类似o1的推理系统。训练完成后,推理阶段也通过单次文本生成过程完成,类似于先前的基于提示的方法,关键区别在于生成的响应包括推理过程和解决方案。接下来,我们将详细说明每个阶段。 •模仿核心理念是在单一响应中生成内部思维过程和最终解决方案。为了实现这一点,可以使用特定的格式化标记来指导模型生成此类输出 [21, 22]。我们认为,即使只有少量长格式思考数据,一个成熟的模型也能轻松遵循类似o1的输出格式。这一过程本质上是遵循预定义的格式。关键理由是,尽管整个思维过程可能非常复杂,但大型语言模型(LLMs)能够有效处理每一个步骤(尽管原文中“LLMs”后的括号未给出具体内容,这里保持原样)。e.g.,规划、自我完善和验证)。通过遵循格式,我们可以指导大语言模型(LLMs)顺畅地管理和连接这些步骤。如果这一假设得到证实,可以实现两大主要益处:(1)大量 格式遵循不需要数据 , 并且(2) 该方法可以很容易地推广到各个领域。 •探索虽然模仿能使大语言模型(LLMs)生成类似o1的输出,但可能不会完全鼓励模型掌握或提升其使用长篇思考应对复杂任务的能力。为了解决这一问题,我们认为必须 incorpor 进探索的过程,允许模型自行生成逐步改进的训练数据。我们称这一过程为探索,因为推理模型无法直接(或容易地)生成解决具有挑战性任务的正确解决 方案。因此,需要使用搜索策略来生成多个候选解决方案,以增加找到正确答案的可能性。轨迹[23, 24](i.e.,整个响应包括思考和解决方案的过程。在实践中,评估这些尝试轨迹的正确性具有挑战性,需要一个带有训练有素的奖励模型的模拟环境。在本工作中,我们采用了一种简化的方法,直接将模型的输出与真实答案进行比较。我们的结果表明,对于收集到的大多数问题,增加卷出次数可以使基础模型在合理数量的尝试内生成正确的轨迹。 •自我改善第三阶段的目标是通过利用逐步改进的轨迹数据进一步增强推理模型的能力。我们假设提供高质量的示范,尤其是那些模型难以生成的示范,将有效增强其推理能力。有几种方法可以实现这一点。通常,我们可以使用拒绝采样来学习高质量样本,并使用直接偏好优化来比较高质量轨迹与较低质量的轨迹。e.g.,那些不能得出正确答案的探索和自我改进阶段可以通过强化学习结合进行以实现系统性的模型改进,尽管这种方法通常需要更多的计算资源和额外的训练时间。 我们展示了我们方法的概述图(Figure 1)。请注意,此框架较为概念性,在我们做出一些初步尝试将其具体化之后,我们的实现尚未完全发挥其潜力。接下来,我们将详细说明我们方法中每个部分的具体实现。 2.2 用于慢思维推理的模仿学习 如第1节所述,我们建议使用模仿学习来使大语言模型(LLM)进行慢思考推理——产生一个扩展的思想过程(以下简称)。长期思维6在回应查询之前。在本节中,我们将首先讨论如何构建用于模仿学习的长句思维数据集(第2.2.1节),然后介绍基于长句思维数据集的微调方法(第2.2.2节)。 2.2. 1 长格式思想数据集构建 为了引导LLM以慢思考模式生成长期思考并在提出解决方案之前产生想法,我们首先需要构建一个展示这种行为的高质量示例数据集。 数据收集。在实践中,构建长形式思考数据有三种典型的approaches。首先,可以雇佣人工注释员生 成此类数据。其次,可以通过辅助搜索算法的帮助,利用LLMs生成长形式的思考数据。e.g.,蒙特卡洛树搜索)。第三,这些数据可以从类似o1的推理系统中提炼出来。考虑到简单性和预算限制,我们采用第三种方法来收集长篇思考。 6我们不倾向于使用“链式思维”,因为想法可以灵活呈现,并体现不同的推理结构。 数据,认识到我们的方法可以扩展以包括其他数据收集方法。我们访问了两个类似o1的推理系统:DeepSeek-R1-Lite-Preview [16](简称为)R1) 和 QwQ - 32B - 预览 [17] (缩写为QwQ). R1 提供了一个具有有限访问权限的开放API,而QwQ提供了开放的模型检查点。我们选择不从o1中提取数据,因为o1在呈现给用户之前会总结内部思维数据,使其不适合直接模仿。经过对R1和QwQ的思维过程进行分析,我们发现这些思维可以以相对灵活甚至口语化的方式呈现。为了获取提炼的数据,我们将指定的问题输入到两个系统中,并执行多次模拟生成多样化的回应。然后,我们根据每个解决方案是否导致正确答案自动对其进行标注。 格式统一。在分析R1和QwQ的思维过程后,我们观察到R1明确地将思考和解决方案分开,而QwQ则 直接输出正确的答案并遵循思考过程。两个系统的对比示例如图2所示。按照R1的结构,我们将响应分为两部分,分别由“begin_of_thought/end_of_thought”和“begin_