行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

大语言模型与交互式智能体：开放世界中的动态推理与规划

信息技术2023-08-08DataFunSummit2023：大模型与AIGC峰会M***

AI智能总结

林 - 艾伦 AI 研究所 DataFunSummit # 2023 文本环境代理研究

研究背景

研究聚焦于在复杂交互式环境中（如 ALF 世界，包含 10 个地点、25 种动作类型、200+ 对象类型、多个状态及随机异常，共 30 种高级任务类型）的任务计划和执行。示例任务多为简单、短动作空间（如“将 A 放入 B”）。

研究方法

基线方法

强化学习（DRRN）：作为深度强化学习相关网络的基础模型。
KG-A2C：通过添加动态图约束动作和对象的选择。
CALM：在计算 Q 函数后，使用更大的语言模型（GPT-2）对候选动作进行重新排序。
模仿学习（Transformer LM）：采用行为克隆技术，通过语言模型模仿行为。

LLM 提示方法

在基线方法基础上，结合研究者提出的改进方法：

混合代理框架：结合较小的语言模型（LM）和带有两阶段提示的大型语言模型（LLM）。
LLM 提示设计：采用 Plan（计划）和 Ground（ grounding）两种提示样式，专为体现动作设计。

研究效率与成本效益

研究评估了方法的效率及成本效益，但具体数据未在摘要中详述。

研究结论

SwiftSage 框架：是一个混合代理框架，结合了模仿学习的较小 LM 和带有两阶段提示的 LLM。
设计特点：专为体现动作设计，采用 Plan 和 Ground 样式的 LLM 提示。
局限性：
- 需要一个 oracle 代理进行离线学习。
- 仍然依赖封闭的 LLM。
- 需要一个互动的反馈环境（世界引擎）。
未来方向：
- 推广到更复杂的任务。
- 知识蒸馏。
- 真实世界的具体化机器人（带视觉输入）。
- 其他潜在研究方向。

林 - 艾伦 AI 研究所 DataFunSummit # 2023 文本环境代理的实际情况任务计划和执行 @ 交互式环境科学世界复杂的设置 ------10 个地点25 种动作类型200 + 对象类型多个状态随机异常30 种高级任务类型 ALF 世界示例任务：将 A 放入 B大多是简单和短动作空间：非常有限 https: / / yuchenlin. xyz / swiftsage / Formulation 基线方法：强化学习DRRN ：深度加固相关网络在时间 t 的状态 s 下的动作 i 的值 KG-A2C:添加动态图以约束动作 + 对象的选择 CALM:在计算 Q 函数后，使用更大的 LM 说 GPT - 2对候选动作进行重新排序。基线方法：模仿学习变压器 LM 的行为克隆 LLM 提示方法：基线 + 我们的效率效率成本效益 Conclusion 1. SwiftSage 是一个混合代理框架：带有模仿的较小 LM + 带有两阶段提示的 LLM 2.专为体现动作而设计。 LLM 提示的 Plan + Ground 样式。 3. 局限性：• 1) 需要一个 oracle 代理进行离线学习。 •2) 仍然依赖封闭的 LLM •3) 需要一个互动的反馈环境(世界引擎) 4. 未来方向•推广到更复杂的任务 •知识蒸馏 •真实世界的具体化机器人 (带视觉输入) •more? 感谢观看

点击免费查看完整报告