行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

在大规模语言模型时代构建自主系统

2024-12-19 - 加州大学伯克利分校电气工程与计算机科学丁叮叮叮

核心观点

本研报探讨了在大型语言模型（LLMs）时代构建智能自主系统的关键挑战和解决方案。作者 Charles Packer 认为，尽管 LLMs 具有强大的推理能力，但它们的无状态性质和固定上下文窗口限制了其作为自主代理的有效性。研报提出了两个关键进展来解决这些问题：

深度强化学习中的泛化评估框架：该框架通过引入标准化环境和指标，使得不同方法之间的比较成为可能，并表明“Vanilla”深度强化学习算法在泛化性能上优于其更为复杂的同类算法。
回顾性任务重新标记（HTR）：HTR 是一种新颖的元学习方法，使算法能够在稀疏奖励设置中学习适应策略，而无需在训练过程中使用密集的奖励信号。实验结果表明，HTR 能够在稀疏奖励环境中学习到与使用成型奖励函数相当的适应策略。
MemGPT：这是一个受操作系统启发的框架，使 LLMs 能够管理自己的内存和状态，引入了虚拟上下文管理和自定向内存操作等概念。MemGPT 通过在主上下文和外部上下文之间协调数据移动，使 LLMs 能够有效地“调入”和“调出”信息，并利用外部存储进行数据管理。实验结果表明，MemGPT 能够克服 LLMs 的上下文限制，在文档分析和对话代理等领域取得优异表现。

关键数据和研究结论

实验结果表明，A2C 和 PPO 等深度强化学习算法在特定场景中可以取得显著成果，但学到的策略往往较为脆弱，并且难以泛化。
EPOpt 能够超越 vanilla PPO 在插值和外推方面取得改进，但训练难度较大。
RL2 在泛化性能上并未提供比 vanilla 深度强化学习算法或 EPOpt 明显的优势，且训练难度较大。
HTR 能够在稀疏奖励环境中学习到与使用成型奖励函数相当的适应策略。
MemGPT 能够克服 LLMs 的上下文限制，在文档分析和对话代理等领域取得优异表现。

未来工作

将 HTR 应用于其他元强化学习环境和任务。
进一步改进 MemGPT 的控制流和内存管理策略。
开发专门为构建可靠的基于 LLMs 的应用程序而设计的新编程模型和抽象。
将 MemGPT 应用于具有巨大或无界上下文的其他领域。

Charles Packer 电气工程与计算机科学加州大学伯克利分校 UCB / EECS - 2024 - 223 号技术报告http: / / www2. eecs. berkeley. edu / Pubs / TechRpts / 2024 / EECS - 2024 - 223. html 2024 年 12 月 19 日版权所有 © 2024 ，作者(S) 。保留所有权利。获得复制整个作品或其中部分内容的权利用于个人或课堂用途，前提是不得为了盈利或商业优势进行复制和分发，且复制件需包含此版权声明和完整引用信息于首页。否则，任何形式的复制、重新发布、上传到服务器或重新分发至列表，均需事先获得具体许可。在大型语言模型时代构建机构系统 By Charles Packer 哲学博士研究生司的加州大学伯克利分校负责委员会: Joseph E. Gonzalez 教授， Ion Stoica 教授 Matei Zaharia 教授 Yuong Tian 博士在大型语言模型时代构建机构系统版权所有 2024 由Charles Packer Abstract by Charles Packer 计算机科学哲学博士加州大学伯克利分校 Joseph E. Gonzalez 教授，主席构建能够推理、适应并与其环境交互的智能自主系统一直是人工智能领域的长期目标。本论文探讨了通过深度学习革命（从强化学习到现代大型语言模型，即LLMs），自主系统的发展演变，重点关注创建可靠自主代理所需的关键组件。首先，我们解决深度强化学习中普遍化的基本挑战—— 引入了一种系统性的框架，用于评估和改进从一个环境转移到另一个环境的学习策略。在此基础上，我们提出了回顾性任务重新标记（Hindsight Task Relabeling, HTR）这一新颖的方法，使元学习（meta-RL）算法能够在稀疏奖励设置中学习适应策略，而无需在训练过程中使用密集的奖励信号。最终，我们探讨了使用大型语言模型构建可靠代理所面临的新兴挑战。尽管大型语言模型展现了前所未有的推理能力，但它们作为自主代理的有效性受到其架构中根本约束的限制——最明显的是它们无状态的性质和固定的情境窗口。我们提出了MemGPT，这是一种借鉴操作系统原理的框架，使大型语言模型能够管理自己的内存和状态，引入了虚拟情境管理等概念以及自我导向的记忆操作。MemGPT证明了通过将大型语言模型视为新的基本计算单元（类似于传统操作系统中的CPU），我们可以构建更加可靠和强大的自主代理。这些系统共同描绘了代理型人工智能系统的演变历程，并提供了关键构建模块。构建积木以创建更加可靠和强大的自主代理。通过解决通用化、适应性和内存管理等核心挑战，本论文为工程下一代能够有效推理和与世界交互的AI系统奠定了基础。给我的父母 Contents 数字列表v表列表ixAcknowledgmentsx 1 介绍 11.1 背景....................................1 1.1. 1 机器人与控制的深度学习革命........11.1. 2 基础模型的兴起.....................21.2 面向机构系统的深度学习.......................21.3 LLM 代理范式............................3 2 深度强化学习中的概括评估 42.1 Introduction....................................4 2.2 背景....................................62.3 表示法......................................72.4 算法.....................................82.5 环境...................................92.6 实验设置................................ 112.7 实验设置................................ 122.8 结果与讨论.............................. 142.9 Conclusion..................................... 152.10 其他细节................................. 162.10. 1 环境详细信息........................... 162.10. 2 训练超参数........................ 162.10. 3 详细的实验结果...................... 182.10. 4 登山车的行为........................ 182.10. 5 训练曲线.............................. 212.10. 6 受过训练的代理人的视频......................... 21 3 后视任务重新标记：体验重放稀疏奖励元 - RL263.1 Introduction.................................... 26 3.2 相关工作................................... 273.3 背景.................................... 283.3. 1 元强化学习 (Meta - RL)................ 293.3. 2 非政策元强化学习................ 293.3. 3 事后体验回放....................... 303.4 在元强化学习中利用后见............ 313.4. 1 算法设计............................. 323.4. 2 单集重新标记 (SER) 策略............... 333.4. 3 事件聚类 (EC) 策略.................... 333.4. 4 HTR 和 HER 的比较...................... 343.4. 5 局限性................................ 343.5 实验.................................... 353.5. 1 环境............................... 353.5. 2 HTR 启用仅使用稀疏奖励的元训练......... 363.5. 3 不同的关键超参数...................... 383.6 结论..................................... 393.7 实验设置 (附加细节)..................... 403.7. 1 计算基础设施........................ 403.7. 2 超参数............................. 403.7. 3 奖励功能............................. 403.7. 4 更改到目标的距离..................... 413.8 算法细节................................ 413.8. 1 采样时间与数据生成重新标记............. 413.8. 2 单集重新标记实施细节.......... 413.8. 3 事件聚类实施细节............... 423.8. 4 时空复杂性....................... 43 4 MemGPT ：将 LLM 作为操作系统 44 4.1 Introduction.................................... 444.2 MemGPT (MemoryGPT)............................ 464.2. 1 主要内容 (提示令牌)...................... 464.2. 2 队列管理器.............................. 474.2. 3 函数执行者 (处理完成令牌)........... 474.2. 4 控制流和功能链................... 484.3 实验.................................... 494.4 实验.................................... 494.4. 1 对话代理的 MemGPT................... 504.4. 2 用于文档分析的 MemGPT..................... 524.5 相关工作................................... 55 4.6 结论..................................... 564.7 其他细节................................. 564.7. 1 限制................................ 564.7. 2 MemGPT 伪码.......................... 574.7. 3 MemGPT 功能集.......................... 584.7. 4 提示和说明........................ 614.7. 5 平衡工作上下文和 FIFO 队列........... 67 从服务模型到服务代理：支持机构工作负载的缺失部分69 5.1 Introduction.................................... 695.1. 1 现有的无状态 LLM 编程模型........... 695.1. 2 机构规划模型....................... 705.1. 3 代理状态................................ 705.2 代理托管层............................. 705.2. 1 LLM 推理：与推理层共同优化....... 715.2. 2 State & Context Management...................... 715.2. 3 多代理通信和编排............. 71 6 结论与未来工作 72 参考书目 74 数字列表 2.1 环境的三个版本的示意图。................ 172.2 层山车（MountainCar）：A2C采用FF架构在DR和DE上实现奖励的热图。坐标轴表示在R和E中变化的两个环境参数。22摆动：使用FF架构在DR和DE上实现的A2C奖励的热图。坐标轴表示在R和E中变化的两个环境参数。232.4 带 FF 架构的 PPO.............................. 242.5 带 RC 架构的 PPO.............................. 242.6 具有 FF 架构的 EPOPT - PPO.......................... 242.7 具有 RC 架构的 EPOPT - PPO......................... 242.8 RL2-PPO....................................... 242.9 基于PPO算法的CartPole环境及其三个版本的学习曲线。请注意，在E

点击免费查看完整报告

你可能感兴趣

在大规模语言模型时代构建自主系统

核心观点

关键数据和研究结论

未来工作

你可能感兴趣

关于大规模语言模型在科学研究中的应用综述

大规模语言模型从理论到实践

开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合

2023年大规模语言模型中语言与知识报告

资讯汇总12期：【科技周报】大规模预训练语言模型领域有了新进展