AI智能总结
林 - 艾伦 AI 研究所 DataFunSummit # 2023 文本环境 代理的实际情况 任务计划和执行 @ 交互式环境 科学世界 复杂的设置 ------10 个地点25 种动作类型200 + 对象类型多个状态随机异常30 种高级任务类型 ALF 世界 示例任务 : 将 A 放入 B大多是简单和短动作空间 : 非常有限 https: / / yuchenlin. xyz / swiftsage / Formulation 基线方法 : 强化学习DRRN : 深度加固相关网络 在时间 t 的状态 s 下的动作 i 的值 KG-A2C:添加动态图以约束动作 + 对象的选择 CALM:在计算 Q 函数后 , 使用更大的 LM 说 GPT - 2对候选动作进行重新排序。 基线方法 : 模仿学习变压器 LM 的行为克隆 LLM 提示方法 : 基线 + 我们的 效率 效率 成本效益 Conclusion 1. SwiftSage 是一个混合代理框架 : 带有模仿的较小 LM + 带有两阶段提示的 LLM 2.专为体现动作而设计。 LLM 提示的 Plan + Ground 样式。 3. 局限性 :• 1) 需要一个 oracle 代理进行离线学习。 •2) 仍然依赖封闭的 LLM •3) 需要一个互动的反馈环境(世界引擎) 4. 未来方向•推广到更复杂的任务 •知识蒸馏 •真实世界的具体化机器人 (带视觉输入) •more? 感谢观看