行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 智能驾驶大模型

自我发现：大型语言模型自我组成推理结构

信息技术2024-02-06Pei Zhou、 Jay Pujara、 Xiang Ren、 Xinyun Chen、 Heng-Tze Cheng、 Quoc V. Le、 Ed H. Chi、 Denny Zhou、 Swaroop Mishra、 Huaixiu Steven Zheng未知机构s***

AI智能总结

SELF-DISCOVER：大型语言模型自组合推理结构

核心观点：
SELF-DISCOVER 是一种使大型语言模型（LLM）能够自主发现并组合原子级推理模块，构建任务特定推理结构的方法。该方法灵感来源于人类解决问题时的内部推理过程，旨在提高 LLM 在复杂推理任务中的效率和性能。

方法：
SELF-DISCOVER 分为两个阶段：

自发现阶段：通过三个元提示（选择、调整、实施）引导 LLM 从一组预定义的原子推理模块中选择、适应并组合成一个针对特定任务的推理结构，格式化为 JSON 格式。
任务解决阶段：LLM 遵循自我发现的推理结构，逐步填写关键点以生成最终答案。

实验设置：

任务：25 个具有挑战性的推理任务，包括 BigBench-Hard (BBH)、为做事而思考 (T4D) 和数学 (MATH)。
模型：GPT-4、GPT-3.5-turbo、指令调谐的 PaLM 2-L 和 Llama2-70B。
基线方法：直接提示、思维链 (CoT)、计划与解决 (PS)、CoT-自我一致性、每个模块的多数投票、OPRO 等。

关键数据和研究结论：

性能提升：SELF-DISCOVER 在 21/25 个任务上超越 CoT，性能提升最高达 42%。在 PaLM 2-L 和 GPT-4 上，准确率分别达到 69% 和 85%，显著优于其他基线方法。
效率优势：相较于 CoT-自我一致性等耗时方法，SELF-DISCOVER 的推理计算量减少 10-40 倍。
通用性：自我发现的推理结构在不同模型（PaLM 2-L 到 GPT-4，再到 Llama2）中具有可迁移性，且与人类推理模式存在共通之处（如逐步心理笔记）。
错误分析：74.7% 的模型错误源于中间计算错误（如数学运算），而非推理结构错误。
消融研究：选择、调整和实施三个步骤都对性能提升有显著贡献，其中实施步骤最为关键。
与 OPRO 的比较：SELF-DISCOVER 在零样本设置下表现优于 OPRO，且结构更可解释。

研究意义：
SELF-DISCOVER 为 LLM 推理提供了一种高效且可解释的解决方案，通过自组合推理模块避免了先验知识的局限性，并展示了人机协作解决复杂问题的潜力。

裴周1Jay Pujara 1香仁1陈新云2恒泽成2Quoc V. Le2 Ed H. Chi 2 Denny Zhou 2 Swaroop Mishra 2郑怀秀史蒂文2 Abstract 儿子。例如，少射和零射思想链 (CoT) (Nye et al.,2021;魏等人。,2022;小岛等人。,2022;安永等人。,2023) 类似于人类如何一步一步地、基于分解的提示 (周等人。,2022a;Drozdov etal.,2022;Patel et al.,2022;郝等人。,2023;Khot 等人。,2022是由人类如何将一个复杂问题分解为一系列较小的子问题并逐一解决这些子问题所启发的（Polya,2004) ，并后退提示 (郑等人。, 我们介绍 SELF-D ISCOVER，一种通用框架，用于使大语言模型（LLMs）自我发现任务内在的推理结构，以应对典型提示方法难以解决的复杂推理问题。该框架的核心在于一个自我发现过程，其中LLMs选择多个原子级的推理模块，如批判性思考和逐步思考，并将它们组合成一个明确的推理结构，以便在解码过程中遵循。ELF-D ISCOVER显著提高GPT-4和PaLM 2在BigBench-Hard、基于地面代理推理以及MATH等具有挑战性的推理基准测试上的性能，相较于Chainof Thought (CoT)，最高可提升32%。此外，SELF- D ISCOVER表现优于诸如CoT-Self-一致性等耗时推理方法，超出20%以上，同时所需推理计算量减少10至40倍。最后，我们展示了自主发现的推理结构在不同模型家族中具有普遍适用性：从PaLM 2-L到GPT-4，再到Llama2，并且与人类的推理模式存在共同之处。 2023你：) 是受人类如何反思任务本质以提炼通用原则所驱动的。然而，一个基本的局限在于，每种技术本身都作为一个原子推理模块运作，并隐含地假设了一种处理给定任务的方法。相反，我们认为每个任务都有一个独特的内在结构，支撑着解决问题时所涉及的推理过程。例如，从最少到最多的提示（least-to-most prompting）周等人。,2022a;Droz - dov 等人。,2022) 已经证明比 CoT 有效得多 (魏等人。,2022) 在解决诸如符号操作和组合泛化等任务方面表现出色，得益于这些任务的分解结构。本文旨在自主发现每个任务独有的推理结构，同时在计算效率方面表现出色。我们的方法，SELF-DISCOVER，灵感来自于人类如何在内部设计一种推理pro - gram用于解决问题 (纽厄尔等人。,1958;拉斯穆森,1983) ，如图2。从一组用自然语言描述的原子推 arXiv: 2402.03620v1 [cs. AI] 2024 年 2 月 6 日理模块，如 “分解成子任务” and “批判性思维“， LLM ，以及没有标签的任务示例， SELF-DISCOVER构成任务内在一致的推理结构（阶段1），然后使用发现的结构解决任务实例（阶段2）。阶段1在任务级别运作，并使用三种行动引导LLM生成任务的推理结构。在阶段2的最终解码过程中，LLM仅遵循自我发现的结构以得出最终答案。 1. Introduction 大型语言模型 (LLM) (布朗等人。,2020;Chowd - hery 等人。,2022;OpenAI,2023b;Anilet al.,2023) 由变压器供电 (Vaswani 等人。,2017) 在生成连贯的文本方面取得了令人印象深刻的突破 (Ope - nAI,2022) ，并遵循说明 (钟等人。,2021;Mishra 等人。,2022c;魏等人。,2021;Chung et al.,2022;欧阳等人.,2022) 。在追求提高 LLM 能力的目标中原因并且解决复杂问题，各种Prompting方法已被提出，这些方法借鉴了人类认知理论中的阅读机制。1南加州大学2 Google DeepMind. 致：pei zhou <peiz@usc.edu>, swaroop mishra <swaroopmishra@google.com>, huaixiu steven zheng <steven-zheng@google.com>. 使用 S 解决问题ELF-D ISCOVER相比其他方法，带来了几种LLM推理的优势。首先，发现的推理结构基于原子推理模块，受益于这些模块的优势，多个推理模块与应用先验模块如 CoT 相反。第二， SELF-D ISCOVER是有效的预打印。在计算中，因为它只需要在任务级，虽然比诸如自洽 (Wang 等人。,2022）。最后，发现的推理结构是任务固有的，并以更多的方式传达 LLM 对任务的见解可解释比优化的提示 (周等人。,2022b;Yang et al.,2023). 计算错误（例如数学运算错误）。我们还详细研究了自我发现的推理结构，并通过从PaLM 2-L转移到GPT-4，以及从GPT-4转移到Llama-2-70B的可转移性研究，展示了这些结构的普遍性。我们希望鼓励更多未来的工作，利用大规模语言模型（LLMs）解决复杂问题时采用结构化推理。 2. 解决问题的自发现推理结构我们测试 SELF-D ISCOVER在 25 个具有挑战性的推理任务中，包括大台阶 (BBH) (Suzgun 等人。,2022) ，为做事而思考 (T4D) (周等人。,2023)和数学 (Hendrycks 等人。,2021). S ELF-DISCOVER在 21 / 25 任务上超越 CoT ，性能提升高达42% (图1), 突出展示由原子推理模块组成的自我发现的推理结构相对于先验CoT模块的优势。此外，我们证明了SELF-D ISCOVER实现优于基于推理的方法（如CoT+自我一致性以及每个模块的多数投票）的卓越性能，同时所需的推理计算量减少10-40倍（如图所示）。5）。最后，我们比较 S ELF-DISCOVER使用训练集优化提示 (OPRO) (Yang et al.,2023) (图9）。我们发现 S ELF-D ISCOVER仍然比 OPRO 表现得更好或更好，而自我发现的推理结构更可解释。我们从人类如何利用先验知识和技能来设计推理程序来解决问题中的灵感 (纽厄尔等人。,1958;拉斯穆森,1983). 当我们面对一个新的问题时，我们通常首先内部搜索从前的经验中哪些知识和技能可能有助于解决问题。然后我们将尝试应用相关知识和技能来解决这个问题。最后，我们会将多种个体技能和知识结合起来解决问题。我们设计了 SELF-DISCOVER将这些步骤分为两个阶段，如图所示2. 给定一个任务和一组推理模块描述，代表高级解决问题的启发式方法，例如 “使用批判性思维” and“让我们一步一步地思考， “S 的第一阶段ELF-DISCOVER旨在通过元推理揭示解决该任务内在推理结构的原因。具体而言，我们使用三个元提示来引导大语言模型（LLM）选择、适应并实施一个可操作的推理结构，无需任何标签或训练。我们将结构格式化为类似JSON的关键值对，由于可解释性和研究发现，JSON格式能提升推理和生成质量。周等人。,2023;OpenAI,2023a) 。的结构我们进行了一系列分析，以了解 S 的有效性ELF-DISCOVER。通过将 BBH 任务分解为 4 个不同的类别，我们发现 SELF-D ISCOVER表现最佳的任务需要世界知识，在算法任务上与思维链（CoT）相比有一定的性能提升（如图所示）。4) 。这进一步证实了数学上的错误分析，其中 74.7% 的模型故障来自使用 S - D 的说明用于解决问题图 2.ELF ISCOVER。给定生成 LM ，任务和种子推理模块描述，我们指导 LM 在key - value格式化以解决任务。最后，模型可以遵循自我发现的结构，通过逐步填写值来解决任务中的每一个实例。元提示和完整提示显示在附录中。阶段 1 操作于任务级，意思是我们只需要运行 S ELF-D ISCOVER然后，在阶段 2 中，我们可以简单地使用发现的推理结构来解决每个实例通过指导模型遵循提供的结构，填写每个关键点以得出最终答案。 task at hand. For example, from "把问题分解成子问题” to “按顺序计算每个算术运算“用于算术问题。给定选定的推理模块D (2)(3)(4)A = M (D ↔ t) ， ↔ t ε T. SD = M (p 44% S 44% D 44% t). I A 人 A i提示的更多细节包含在附录 A 中。D = M (p 44% D 44% t). A A S i2.2. Stage 2: Tackle Tasks using Discovered StructuresIMPLEMENT最后，给出了适应的推理模型。Dule 描述, SELF-D ISCOVER操作化A推理模块到一个实现的推理结构具有有关要为其生成的内容的指定指令Ipeach step. In addition to a meta prompt, implementI还提供了一个人类写的理由的演示 -SING 结构在另一个任务上，以更好地转换人类自然语言描述为推理结构：上一步的子集， ADAPT 改写eachS所选模块的更特定于任务。 Sim -p对于 SELECT ，此阶段使用元提示和A生成模型M生成适应的推理D模块描述：A在这三个阶段之后，我们有了一个实现的推理D唯一适合我们需要解决的任务的结构IT。然后，我们可以简单地将推理结构附加到任务的所有实例，并提示模型遵循A推理结构以生成答案： 2.1. 阶段 1 ：自我发现任务特定结构第一阶段包括三个步骤：1) 选择（SELECT），从已有的推理模块描述中选择适用于任务解决的相关推理模块；2) 调整（ADAPT），将选定的推理模块描述重新表述为更适合当前任务的具体内容；3) 实施（IMPLEMENT），将调整后的推理描述整合到结构化的可执行计划中，以便能够按照结构化的方式解决问题。选择 (1)D = M (p 44% D 44% t). S S i首先，并非每个推理模块都对每个任务都有帮助，因此 S 的第一阶段ELF-D ISCOVER引导模型以根据任务示例选择有用的模块。例如， “反思性思维“可能有助于寻找关于科学问题的第一原理理论，而 ”创造性思维“有助于生成故事的新颖延续。给定推理模块描述的原始集合D如 “批判性思维”, and “把问题分解成子问题“(附录中的全套A) ，以及一些任务包括 -t ∈T没有标签的 amples, S ELF-D ISCOVER首先选择iD用于求解的推理模块的子集S使用模型的任务M p和一个元提示：S适应由于每个推理模块都提供了如何解决问题的一般描述，因此 S 的下一步ELF- D ISCOVER旨在剪裁每个选定的模块 3. 实验设置 3.1. Tasks 我们专注于对 LLM 仍然具有挑战性的各种推理基准： BIG - Bench Hard(BBH) （Suzgun 说明 S - D 的三个动作图 3.ELF ISCOVER我们使用语言模型（LMs）通过选择相关模块、适应任务特定描述并以JSON格式实现推理结构来构建一个连贯的推理框架。直接提示• et al.,2022) 包含来自 BIG - Bench 的 23 项精心挑选的具有挑战性的任务 (Srivastava 等人。,2023). BBH任务涵盖了作者根据以下四个类别划分的广泛推理问题：1）算法和多步算术推理，2）自然语言理解，3）世界知识的应用，以及4）多语言知识和推理。我们还测试了一个称为“思考以行动”（T4D）的基于现实的社会代理推理任务，在此任

点击免费查看完整报告

你可能感兴趣

自我发现：大型语言模型自我组成推理结构

SELF-DISCOVER：大型语言模型自组合推理结构

你可能感兴趣

建投计算机OpenAI公布技术路线图深度推理成为基础模型的重要组成

AIGC聊天机器人系列深度报告之技术篇：理解语言模型与推理能力，迈向具身智能新阶段

推理机器学习：迈向人机协作视觉与语言模型

MilChat：为遥感多模态小语言模型引入思维链推理与GRPO技术

评估大型语言模型接管灾难的风险