林 - 艾伦 AI 研究所 DataFunSummit # 2023 文本环境代理研究
研究背景
研究聚焦于在复杂交互式环境中(如 ALF 世界,包含 10 个地点、25 种动作类型、200+ 对象类型、多个状态及随机异常,共 30 种高级任务类型)的任务计划和执行。示例任务多为简单、短动作空间(如“将 A 放入 B”)。
研究方法
基线方法
- 强化学习(DRRN):作为深度强化学习相关网络的基础模型。
- KG-A2C:通过添加动态图约束动作和对象的选择。
- CALM:在计算 Q 函数后,使用更大的语言模型(GPT-2)对候选动作进行重新排序。
- 模仿学习(Transformer LM):采用行为克隆技术,通过语言模型模仿行为。
LLM 提示方法
在基线方法基础上,结合研究者提出的改进方法:
- 混合代理框架:结合较小的语言模型(LM)和带有两阶段提示的大型语言模型(LLM)。
- LLM 提示设计:采用 Plan(计划)和 Ground( grounding)两种提示样式,专为体现动作设计。
研究效率与成本效益
研究评估了方法的效率及成本效益,但具体数据未在摘要中详述。
研究结论
- SwiftSage 框架:是一个混合代理框架,结合了模仿学习的较小 LM 和带有两阶段提示的 LLM。
- 设计特点:专为体现动作设计,采用 Plan 和 Ground 样式的 LLM 提示。
- 局限性:
- 需要一个 oracle 代理进行离线学习。
- 仍然依赖封闭的 LLM。
- 需要一个互动的反馈环境(世界引擎)。
- 未来方向:
- 推广到更复杂的任务。
- 知识蒸馏。
- 真实世界的具体化机器人(带视觉输入)。
- 其他潜在研究方向。
林 - 艾伦 AI 研究所
DataFunSummit # 2023
文本环境
代理的实际情况
任务计划和执行 @ 交互式环境
科学世界
复杂的设置
------10 个地点25 种动作类型200 + 对象类型多个状态随机异常30 种高级任务类型
ALF 世界
示例任务 : 将 A 放入 B大多是简单和短动作空间 : 非常有限
https: / / yuchenlin. xyz / swiftsage /
Formulation
基线方法 : 强化学习DRRN : 深度加固相关网络
在时间 t 的状态 s 下的动作 i 的值
KG-A2C:添加动态图以约束动作 + 对象的选择
CALM:在计算 Q 函数后 , 使用更大的 LM 说 GPT - 2对候选动作进行重新排序。
基线方法 : 模仿学习变压器 LM 的行为克隆
LLM 提示方法 : 基线 + 我们的
效率
效率
成本效益
Conclusion
1. SwiftSage 是一个混合代理框架 : 带有模仿的较小 LM + 带有两阶段提示的 LLM
2.专为体现动作而设计。 LLM 提示的 Plan + Ground 样式。
3. 局限性 :•
1) 需要一个 oracle 代理进行离线学习。 •2) 仍然依赖封闭的 LLM •3) 需要一个互动的反馈环境(世界引擎)
4. 未来方向•推广到更复杂的任务 •知识蒸馏 •真实世界的具体化机器人 (带视觉输入) •more?
感谢观看