曾志远1∗秦源城1∗张越银1∗王波1∗李世民1周云华2郭启鹏2宣经黄1邱希鹏1† 1复旦大学2上海 AI 实验室 Abstract OpenAI o1 在人工智能领域代表了一个重要的里程碑,它在许多需要强大推理能力的挑战性任务中实现了专家级别的表现。OpenAI 声称其主要技术是强化学习(OpenAI, 2024a; b)。近期的研究使用了知识蒸馏等替代方法来模仿 o1 的推理风格,但这些方法的有效性受限于教师模型的能力上限。因此,本文从强化学习的角度分析了实现 o1 的路径,重点关注四个关键组件:策略初始化、奖励设计、搜索和学习。策略初始化使模型能够发展出类似人类的推理行为,赋予它们有效探索复杂问题解决方案空间的能力。奖励设计通过奖励塑造或奖励建模提供了密集且有效的信号,这是搜索和学习的指导。搜索在训练和测试阶段都发挥着关键作用,能够通过更多的计算生成高质量的解决方案。学习利用搜索产生的数据改进策略,从而通过更多的参数和更多搜索的数据实现更好的性能。试图重现 o1的现有开源项目可以被视为我们路径的一部分或变体。总体而言,这些组件突显了学习和搜索如何推动 o1 的进步,并对大语言模型(LLM)的发展做出了有意义的贡献。 从苦涩的教训中应该学到的一点是通用方法的巨大威力,这些方法即使在可用计算能力变得非常巨大时也能继续扩展和应用。在这两种似乎能够任意扩展的方法中,它们是:搜索and学习.—理查德 · 萨顿 , 2019 年 1 Introduction 人工智能领域在过去两年中见证了大型语言模型(LLMs)前所未有的探索与进步。这些模型逐渐进化,能够处理越来越复杂的任务,如编程和解决高级数学问题。OpenAI 的 o1 模型代表了人工智能领域的重要里程碑,它能够生成非常长的推理过程,并执行类似于人类的推理行动,如澄清和分解问题、反思并纠正之前的错误、在遇到失败模式时探索新的解决方案。o1 模型在推理能力上大幅超越了先前的大型语言模型,其表现达到了博士水平的专业水平。其显著的推理成就标志着 OpenAI 在通往通用人工智能(AGI)的五阶段路线图中迈进了第二阶段(“Reasoner”)。 o1的博客和系统卡显示,随着强化学习和推理计算量的增加,o1的表现持续提升(OpenAI, 2024a;b)。这表明o1可能推动人工智能的两大范式转变:从(自我)监督学习转向强化学习,以及从仅扩大训练计算规模转向同时扩大训练和推理计算规模。 o1通过强化学习扩大训练时间计算,并在测试时间通过更多的思考来扩展计算。我们采用搜索作为实现o1思考过程的方式,因为搜索具有可扩展性(Sutton, 2019),并且有许多成功的研究使用搜索进行强化学习中的训练和决策,例如AlphaGo(Silver等,2016)和AlphaGo Zero(Silver等,2017)。在本文中,我们将强化学习作为通往o1的道路的核心。我们的道路图如图1所示,由四个组成部分组成:策略初始化、奖励设计、搜索和学习。我们认为这四个方面是构建具有强推理能力的大型语言模型(LLM)的关键。 As described in Figure 2, our roadmap starts with policy initialization. In the context of LLM, the pol -π(a icy (|s通常指的是基于给定上下文(状态)生成下一个标记/步骤/响应(行动)的概率分 布。策略初始化为LLMs带来了类似人类推理的行为,如任务组合、自我评估和自我修正。接下来是奖励设计,其目标是为搜索和学习提供指导信号。奖励设计可以从环境获取或重塑奖励信号,或者从偏好数据中学习奖励模型。策略初始化和奖励设计都是为了准备搜索和学习。搜索在训练和测试阶段都发挥着重要作用,可以通过更多的计算生成高质量的解决方案。学习则利用搜索产生的数据来改进策略。用于学习的数据源自LLMs与环境的交互,而不是由人类专家手动整理,因此消除了昂贵的数据标注需求,并有可能实现超人类性能。 策略初始化从零开始使用强化学习训练一个大型语言模型(LLM)极其具有挑战性,因为其动作空间 极为庞大。幸运的是,我们可以利用大量的互联网数据进行预训练,从而建立一个强大的初始策略模型,该模型能够生成流畅的语言输出。此外,通过优化提示工程和监督微调,可以使模型获得类似人类的推理行为,使其能够系统地思考并验证自己的结果。这些方法使模型能够充分探索其解决方案空间,从而提高其综合问题解决能力。 奖励设计搜索和学习都需要从奖励信号中获得指导以改进策略。不同层次的动作粒度对应着不同的 奖励信号粒度,这些粒度可以进一步探索。此外,许多环境中的奖励信号往往是稀疏的甚至不存在。为了将稀疏的结果奖励转化为密集的过程奖励,存在一些奖励塑造方法(Ng等,1999)。对于没有奖励信号的环境,例如故事写作任务,可以从偏好数据中学习一个奖励模型。 图3:大规模语言模型(LLM)强化学习中代理与环境之间交互的可视化。左:传统强化学习。右:针对LLM的强化学习。该图仅可视化了步骤级别的动作以简化显示。实际上,LLM的动作可以是令牌级别、步骤级别或解决方案级别。 (Bai等,2022a)或专家数据(Ng & Russell, 2000)。奖励模型的构建可以进一步发展为建立世界模型(Dawid & LeCun, 2023)。 搜索 搜索在训练和测试阶段都发挥着关键作用。训练时间搜索指的是利用搜索过程生成训练数据。与简单的抽样相比,使用搜索生成训练数据的优势在于,搜索能够产生更好的行动或解决方案——即更高质量的训练数据,从而提高学习效果。在推理过程中,搜索继续发挥重要作用以改进模型的次优策略。例如,AlphaGo(Wan等,2024)在测试过程中使用蒙特卡洛树搜索(MCTS)来提升其性能。然而,扩展测试时间搜索可能会导致反向缩放现象:策略、奖励和价值模型是在一个分布上进行训练但在另一个不同的分布上进行评估(Gao等,2023)。 Learning从人类专家数据中学习需要昂贵的数据标注。相比之下,强化学习通过与环境的交互来学 习,消除了昂贵的数据标注的需要,并提供了超越人类表现的潜力。在本路线图中,强化学习利用通过策略梯度或行为克隆进行的学习搜索生成的数据。策略梯度方法具有高数据利用率,因为它们利用了正负解决方案,而行为克隆在简单性和内存效率方面具有优势。强化学习与搜索之间迭代交互的一个显著例子是AlphaGo Zero(Silver等,2017),它将蒙特卡洛树搜索(MCTS)作为搜索算法与行为克隆作为学习方法相结合,最终在围棋游戏中实现了超人类的表现。(Silver等,2017;Metropolis & Ulam,1949) 我们详细探讨了Policy Initialization(第3节)、Reward Design(第4节)、Search(第5节)和Learning(第6节)的潜在实施方式。此外,我们回顾了现有的开源o1项目,展示了它们可能作为我们框架的组成部分或其中的具体实例的方式(第7节)。最后,我们讨论了o1的未来发展趋势以及相关挑战(第8节)。 2 背景 由于此 ROADMAP 是从强化学习的角度设计的,因此我们在本节中介绍了强化学习的一些背景及其与大语言模型(LLM)的关联。与其他学习范式不同,强化学习通过与环境交互来学习,而不是仅仅从静态训练数据集中学习。在强化学习中,代理通过探索并从环境中接收奖励来学习。图 3 屾示了在大语言模型上下文中,代理与环境之间的交互过程。 代理 Agent 是与环境交互的实体 , 它根据其π 4政策政策。正式地 , a是从状态到动作的映射。它通常表示为概率π(a)分布 (|s s) 在给定状态的动作上 , 其中代理根据这些概率选择动作。 代理人在 LLM 的上下文中 ,指 LLM 本身 , 其策略指定概率分布 s state基于当前状态的令牌级、逐步级或解决方案级操作。由t t时提供给模型的输入 , 包括用户输入和模型的早期输出。Environment 行动环境是指代理之外的系统或世界。它响应代理的sr(s , a) 环境反馈可以分为确定性或随机性。随机反馈p(s , r s , a)以过渡分布为特征|, 就像在对话这样的系统中看到的那样t+1 t+1 t t模型所采取的具体步骤可能会根据问题设置而有所不同;它涉及生成一个令牌、完成一步或提供一个解决方案。行动 , 并提供下一个状态方面的反馈和奖励.t+1 t t 3 策略初始化models, where user response are inherently predictable. On the other hand, determinative feedbacksr(s , a)不涉及随机性 , 产生固定的下一个状态和奖励。例如 , 当 t+1 t ts 在强化学习中,策略定义了代理在响应环境状态时如何选择行动。如第2节所述,大语言模型(LLMs)在三个粒度级别上操作:解决方案级、步骤级和标记级。解决方案级行动代表最粗的粒度,将整个解决方案视为单一行动。步骤级行动在中间粒度上操作,其中单个步骤作为离散的行动。标记级行动提供了最细的粒度,将每个单独的标记视为一个行动。以标记级行动为例,行动空间包含词汇表中的成千上万个标记,因此建立一个初始化良好的策略对于有效的模型性能至关重要(Brown等,2020)。LLM 解决了一个数学问题 , 过渡是确定性的 , 其中当前状态和tas行动被组合以产生下一个状态.tt+1 如图4所示,大型语言模型(LLMs)的初始化过程包括两个主要阶段:预训练和指令微调。在预训练阶段,模型通过大规模网络语料库的自我监督学习来发展基本的语言理解能力(Sun等,2024d;Weber等,2024;Liu等,2024f),遵循已建立的计算资源与性能之间的幂律关系(Kaplan等,2020;Hoffmann等,2022)。随后的指令微调则将LLMs从简单的下一个词预测转变为生成与人类一致的响应(Wei等,2022a;Chung等,2024)。对于像o1这样的模型而言,融入类似人类的推理行为对于实现更复杂的解决方案空间探索至关重要。我们总结了六种可以通过提示激活或通过从LLMs中学习专家轨迹来获得的关键行为。 3.1 预培训 预训练通过暴露于大量文本语料库中,在大规模语言模型(LLMs)中建立基本的语言理解和推理能力(Radford & Narasimhan, 2018;Lee等,2024)。对于o1类模型而言,这些核心能力构成了后续学习和搜索中发展出高级行为的基础。 3.1. 1 语言理解与生成 预训练通过广泛接触自然语言来培养多样的语言能力(Radford & Narasimhan, 2018)。在句法层面,模型学习从基本词序模式到复杂的依赖关系等各种句法规则(Manning, 2022)。这种句法基础使模型能够理解语用意义,包括话语标记和上下文语言使用,从而能够在不同任务中适应不同的风格(Dam et al., 2024)。生成能力从基本的语法连贯性发展到复杂的特征,如长距离一致性及复杂叙事结构(Tian et al., 2024b)。通过多语言训练数据,模型发展出跨语言能力,能够在不同语言之间实现零样本迁移和文化理解(Scao etal., 2022;Alves et al., 2024)。研究表明,语言理解是分层次出现的:句法模式较早出现,而逻辑一致性和抽象推理则较晚发展,这表明除了模型规模之外,训练时间和数据组成的重要性(He et al., 2024;Ahuja et al., 2024)。 3.1. 2 世界知识获取和存储 预训练通过多样化的语料库处理,在事实、程序和概念领域实现全面的知识获取(Radford等,2019;Brown等,2020)。模型从百科全书和学术文献中发展出丰富的语义网络,从而支持跨领域的推理和新颖见解(Cha