您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [斯坦福]:代理商AI:调查多模式交互的前沿 - 发现报告

代理商AI:调查多模式交互的前沿

2024-01-25 Zane Durante,Qiuyuan Huang,Naoki Wake 斯坦福 HEE
报告封面

Zane Durante1†*, 黄秋远2‡∗, 岩崎直树2∗,龚冉3†,朴在圣4†, 比迪普塔·桑卡尔1†, 罗汉·托里1†, 野田祐介5, 德米特里·特佐波洛斯3叶金·崔4,池内克士2Hoi Vo 5,李飞飞1, 高建峰2 1斯坦福大学;2微软研究院,雷德蒙德;3加州大学洛杉矶分校;4华盛顿大学5微软游戏 图1:一个能够感知和在不同领域和应用程序中行动的代理人工智能系统的概述。代理人工智能正成为通往通用人工智能(AGI)的有希望的途径。代理人工智能训练已显示出在物理世界中实现多模态理解的能力。它通过利用生成人工智能以及多个独立数据源,提供了一个现实无关的训练框架。为代理和动作相关任务训练的大型基础模型,当在跨现实数据上训练时,可以应用于物理和虚拟世界。我们展示了这样一个代理人工智能系统的总体概述,该系统能够在许多不同的领域和应用程序中进行感知和行动,可能通过代理范式成为通往AGI的途径。 摘要 多模态人工智能系统很可能成为我们日常生活中无处不在的存在。使这些系统更具互动性的一个有前景的方法是将它们体现为物理和虚拟环境中的代理。目前,系统利用现有的基础模型作为创建具身代理的基本构建块。在这样一个环境中嵌入代理,有助于模型处理和解释视觉和上下文数据,这对于创建更复杂和上下文感知的人工智能系统至关重要。例如,一个能够感知用户行为、人类行为、环境对象、音频表达以及场景集体情感的系统,可以用来告知和指导特定环境中的代理响应。为了加速基于代理的多模态智能研究,我们将“代理AI”定义为一种能够感知视觉刺激、语言输入和其他环境相关数据,并能够产生有意义的具身行为的交互式系统。特别是,我们探索旨在通过结合外部知识、多感官输入和人类反馈来改善代理基于下一具身动作预测的系统。我们认为,通过在具身环境中开发代理AI系统,还可以减轻大型基础模型产生的幻觉及其产生与环境不正确输出的倾向。代理AI的兴起领域涵盖了多模态交互的更广泛的具身和代理方面。除了代理在物理世界中的行动和交互之外,我们设想一个未来,人们可以轻松创建任何虚拟现实或模拟场景,并与虚拟环境中的具身代理互动。 目录 1 引言 1.1 动机.......................................................51.2 背景......................................................51.3 概述.......................................................6 2 代理人工智能集成 2.1 无限人工智能代理....................................................72.2 大型基础模型赋能的代理人工智能.......................................82.2.1 幻觉.................................................82.2.2 偏见与包容性.............................................92.2.3 数据隐私与使用............................................ 102.2.4 可解释性和可说明性....................................... 112.2.5 推理增强............................................ 122.2.6 监管................................................... 132.3 应急能力的代理人工智能............................................ 14 3 人工智能代理范式 15 3.1 长短期记忆网络(LLMs)和短时记忆网络(VLMs)................................................... 153.2 代理转换器定义............................................. 153.3 代理变换器的创建.............................................. 16 4 代理人工智能学习 17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .174.1 策略与机制 4.1.1 强化学习(RL)......................................... 174.1.2 模仿学习(IL)............................................ 184.1.3 传统RGB................................................ 184.1.4 在上下文中的学习.............................................. 184.1.5 代理系统中的优化...................................... 18 205 代理人人工智能分类 5.1 全能代理商领域................................................ 205.2 内在化代理................................................... 205.2.1 行动代理................................................. 205.2.2 交互式代理............................................... 215.3 模拟与环境代理......................................... 215.4 生成式代理................................................... 215.4.1 AR/VR/混合现实代理......................................... 225.5 知识与逻辑推理代理....................................... 225.5.1 知识代理............................................... 235.5.2 逻辑代理................................................. 235.5.3 情感推理代理....................................... 235.5.4 神经符号代理............................................ 245.6 LLMs and VLMs Agent................................................ 24 6 人工智能代理应用任务 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .246.1 游戏代理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .36. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .366.2 机器人技术.................................................................................................... 286.3.1 当前的医疗能力6.4 多模态智能体6.6.1 LLM代理.................................................. 456.6.2 通用LLM代理.............................................. 456.6.3 指令跟随型大型语言模型代理...................................... 466.6.4 实验与结果........................................... 466.1.1 NPC行为................................................. 246.1.2 人与NPC交互............................................ 256.1.3 基于代理的游戏分析....................................... 256.1.4 游戏场景合成......................................... 276.1.5 实验与结果........................................... 276.4.1 图像语言理解与生成............................... 366.4.2 视频与语言理解与生成............................. 376.4.3 实验与结果........................................... 396.2.1 机器人用LLM/VLM代理........................................ 306.2.2 实验 和 结果。........................................... 316.3 医疗保健....................................................... 356.5 视频语言实验............................................. 416.6 NLP代理..................................................... 45 7 模态、领域和现实中的代理人工智能 48 7.1 跨模态理解代理........................................ 487.2 跨领域理解代理....................................... 487.3 交互式跨模态和跨现实代理................................. 497.4 模拟到现实转移.................................................. 49 8 持续与自我提升的智能代理AI498.1 基于人类交互的数据............................................ 49 8.2 基础模型生成数据.......................................... 50 9 代理人数据集和排行榜 9.1 “CuisineWorld”多智能体游戏数据集............................