Charles Packer 电气工程与计算机科学加州大学伯克利分校 UCB / EECS - 2024 - 223 号技术报告http: / / www2. eecs. berkeley. edu / Pubs / TechRpts / 2024 / EECS - 2024 - 223. html 2024 年 12 月 19 日 版权所有 © 2024 , 作者(S) 。保留所有权利。 获得复制整个作品或其中部分内容的权利用于个人或课堂用途,前提是不得为了盈利或商业优势进行复制和分发,且复制件需包含此版权声明和完整引用信息于首页。否则,任何形式的复制、重新发布、上传到服务器或重新分发至列表,均需事先获得具体许可。 在大型语言模型时代构建机构系统 By Charles Packer 哲学博士 研究生司 的 加州大学伯克利分校 负责委员会: Joseph E. Gonzalez 教授 , Ion Stoica 教授 Matei Zaharia 教授 Yuong Tian 博士 在大型语言模型时代构建机构系统 版权所有 2024 由Charles Packer Abstract by Charles Packer 计算机科学哲学博士 加州大学伯克利分校 Joseph E. Gonzalez 教授 , 主席 构建能够推理、适应并与其环境交互的智能自主系统一直是人工智能领域的长期目标。本论文探讨了通过深度学习革命(从强化学习到现代大型语言模型,即LLMs),自主系统的发展演变,重点关注创建可靠自主代理所需的关键组件。首先,我们解决深度强化学习中普遍化的基本挑战—— 引入了一种系统性的框架,用于评估和改进从一个环境转移到另一个环境的学习策略。在此基础上,我们提出了回顾性任务重新标记(Hindsight Task Relabeling, HTR)这一新颖的方法,使元学习(meta-RL)算法能够在稀疏奖励设置中学习适应策略,而无需在训练过程中使用密集的奖励信号。 最终,我们探讨了使用大型语言模型构建可靠代理所面临的新兴挑战。尽管大型语言模型展现了前所未有的推理能力,但它们作为自主代理的有效性受到其架构中根本约束的限制——最明显的是它们无状态的性质和固定的情境窗口。我们提出了MemGPT,这是一种借鉴操作系统原理的框架,使大型语言模型能够管理自己的内存和状态,引入了虚拟情境管理等概念以及自我导向的记忆操作。MemGPT证明了通过将大型语言模型视为新的基本计算单元(类似于传统操作系统中的CPU),我们可以构建更加可靠和强大的自主代理。这些系统共同描绘了代理型人工智能系统的演变历程,并提供了关键构建模块。 构建积木以创建更加可靠和强大的自主代理。通过解决通用化、适应性和内存管理等核心挑战,本论文为工程下一代能够有效推理和与世界交互的AI系统奠定了基础。 给我的父母 Contents 数字列表v表列表ixAcknowledgmentsx 1 介绍 11.1 背景....................................1 1.1. 1 机器人与控制的深度学习革命........11.1. 2 基础模型的兴起.....................21.2 面向机构系统的深度学习.......................21.3 LLM 代理范式............................3 2 深度强化学习中的概括评估 42.1 Introduction....................................4 2.2 背景....................................62.3 表示法......................................72.4 算法.....................................82.5 环境...................................92.6 实验设置................................ 112.7 实验设置................................ 122.8 结果与讨论.............................. 142.9 Conclusion..................................... 152.10 其他细节................................. 162.10. 1 环境详细信息........................... 162.10. 2 训练超参数........................ 162.10. 3 详细的实验结果...................... 182.10. 4 登山车的行为........................ 182.10. 5 训练曲线.............................. 212.10. 6 受过训练的代理人的视频......................... 21 3 后视任务重新标记 : 体验重放稀疏奖励元 - RL263.1 Introduction.................................... 26 3.2 相关工作................................... 273.3 背景.................................... 283.3. 1 元强化学习 (Meta - RL)................ 293.3. 2 非政策元强化学习................ 293.3. 3 事后体验回放....................... 303.4 在元强化学习中利用后见............ 313.4. 1 算法设计............................. 323.4. 2 单集重新标记 (SER) 策略............... 333.4. 3 事件聚类 (EC) 策略.................... 333.4. 4 HTR 和 HER 的比较...................... 343.4. 5 局限性................................ 343.5 实验.................................... 353.5. 1 环境............................... 353.5. 2 HTR 启用仅使用稀疏奖励的元训练......... 363.5. 3 不同的关键超参数...................... 383.6 结论..................................... 393.7 实验设置 (附加细节)..................... 403.7. 1 计算基础设施........................ 403.7. 2 超参数............................. 403.7. 3 奖励功能............................. 403.7. 4 更改到目标的距离..................... 413.8 算法细节................................ 413.8. 1 采样时间与数据生成重新标记............. 413.8. 2 单集重新标记实施细节.......... 413.8. 3 事件聚类实施细节............... 423.8. 4 时空复杂性....................... 43 4 MemGPT : 将 LLM 作为操作系统 44 4.1 Introduction.................................... 444.2 MemGPT (MemoryGPT)............................ 464.2. 1 主要内容 (提示令牌)...................... 464.2. 2 队列管理器.............................. 474.2. 3 函数执行者 (处理完成令牌)........... 474.2. 4 控制流和功能链................... 484.3 实验.................................... 494.4 实验.................................... 494.4. 1 对话代理的 MemGPT................... 504.4. 2 用于文档分析的 MemGPT..................... 524.5 相关工作................................... 55 4.6 结论..................................... 564.7 其他细节................................. 564.7. 1 限制................................ 564.7. 2 MemGPT 伪码.......................... 574.7. 3 MemGPT 功能集.......................... 584.7. 4 提示和说明........................ 614.7. 5 平衡工作上下文和 FIFO 队列........... 67 从服务模型到服务代理 : 支持机构工作负载的缺失部分69 5.1 Introduction.................................... 695.1. 1 现有的无状态 LLM 编程模型........... 695.1. 2 机构规划模型....................... 705.1. 3 代理状态................................ 705.2 代理托管层............................. 705.2. 1 LLM 推理 : 与推理层共同优化....... 715.2. 2 State & Context Management...................... 715.2. 3 多代理通信和编排............. 71 6 结论与未来工作 72 参考书目 74 数字列表 2.1 环境的三个版本的示意图。................ 172.2 层山车(MountainCar):A2C采用FF架构在DR和DE上实现奖励的热图。坐标轴表示在R和E中变化的两个环境参数。22摆动:使用FF架构在DR和DE上实现的A2C奖励的热图。坐标轴表示在R和E中变化的两个环境参数。232.4 带 FF 架构的 PPO.............................. 242.5 带 RC 架构的 PPO.............................. 242.6 具有 FF 架构的 EPOPT - PPO.......................... 242.7 具有 RC 架构的 EPOPT - PPO......................... 242.8 RL2-PPO....................................... 242.9 基于PPO算法的CartPole环境及其三个版本的学习曲线。请注意,在E