您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[高通]:2024 多模型态 AI 的感官结合视觉、听觉与交互科技白皮书 (汉) - 发现报告

2024 多模型态 AI 的感官结合视觉、听觉与交互科技白皮书 (汉)

医药生物2024-09-24-高通匡***
AI智能总结
查看更多
2024 多模型态 AI 的感官结合视觉、听觉与交互科技白皮书 (汉)

罗兰 · 梅米萨维奇 Qualcomm AI Research 高级工程总监 与Sunny Panchal、Apratim Bhattacharyya、Guillaume Berger、AntoineMercier、Reza Pourreza、Sanjay Haresh及其他人员共同完成2024 年 9 月 24 日 议程 • 关键概念 : 流架构 • 数据集对端到端培训的重要性 • 高效的人机交互和基于视频的推理 • 使用辅助任务改进流视频 LLM 对于 LMs全栈 AI优化 通过知识蒸馏设计高效的扩散模型以实现高精度 知识蒸馏以修剪和移除注意力模块,从而获得准确且性能和能效均得到提升的模型。 完全运行在设备上 显著降低运行时延迟和功耗 高通®AI 引擎可直接提高性能并最大限度地减少内存溢出 持续改进高通®AI 堆栈 高通公司的 AI 加速®六边形™Snapdragon 的 NPU®8Gen 3 移动处理器 混合 AI 中央云 将工作负载分配至云和边缘/设备以提供更为强大、高效且高度优化的体验。 易于开发和部署培训 | 超大型模型聚合 | 绝对性能 边缘云 (本地或附近)即时性 | 可靠性 | 个性化 | 隐私 | 安全微调 | 聚合 在设备上 即时 | 可靠性 | 个性化 | 隐私 | 安全成本 | 能源 为了缩放 , AI 处理的重心正在向边缘移动 LLM 现在可以看到 70 亿个参数 LMM , LLaVA ,具有文本 , 语音和图像输入 世界第一Android 手机上的大型多模态模型 (LMM) 以响应令牌速率进行关于图像的多轮直观对话 全栈 AI 优化 , 以低功耗实现高性能 通过设备上处理增强隐私、可靠性、个性化和成本 目标 : 训练 AI 模型以查看人类并与人类互动 情景视觉语言模型 • 实时处理实时视频流并与用户动态交互 • 确定要说什么以及何时要说 •启用人形机器人的路径 与位置代理的开放式异步交互是一个开放的挑战 • 仅限于在 VQA 风格的对话中捕捉现实的瞬间快照• 仅限于关于离线文档或图像的回合式交互 研究视觉接地的 LLM , 具有推理和与环境互动的能力 代理的端到端 backprop 关键概念 : 多模态流架构 •自回归语言模型是多模态代理的一个有用组件,因为它已经能够与用户进行对话。 •此外 , 语言可以轻松地对代理任务进行编码 , 以达到一定程度的 “常识 ” 。 • 结合图像特征提取器和语言模型骨干的视觉基础模型逐渐变得普遍。 • 有多种不同的方式将视觉信息与语言模型结合起来 , 例如 :• 交叉注意力 (例如, 火烈鸟) • 专用视觉标记 (例如, 熔岩) 端到端学习需要多模态流架构 ... 适用于字幕和视觉问答等应用程序 然而 ,... ... 可以利用实时摄像机馈送的现场代理需要一个可以持续关注视觉输入的系统 挑战: • 自由交织的视觉帧和语言标记• 视觉帧率与标记率之间的依赖关系• 训练数据,使模型学会何时以及说什么 • 近期工作:“VideoLLM-online:用于流式视频的大语言模型”,陈等,2024,以及我将在下一张幻灯片中介绍的我们自己的工作 数据集对端到端培训的重要性 用于视觉助手端到端培训的数据集 端到端训练的关键要求 : 对齐视频馈送(帧) + 助手的评论(令牌) “基础模型可以观察 , 说话并指导您一步一步地制作蛋糕吗 ? ”Bao et al. 2023 “HoloAssist : 现实世界中交互式 AI 助手的以自我为中心的人类交互数据集 ”Wang 等人 2024 “现场健身教练作为情境互动的试验台 ”Panchal 等人 2024 第一人称视频显示纸杯蛋糕的准备 第三人称视频显示健身运动及其更正 第一人称视频显示各种任务(16 个对象的 20 个任务) 健身问题数据集 FIT - 教练基准和数据集 一种新颖的交互式视觉教练基准和数据集 , 作为实时 , 现实世界的交互的测试台 健身反馈数据集 旨在发展基于受控但具有挑战性的健身教练领域的交互多模态视觉-语言模型。 健身助手数据集和基准测试 短视频剪辑展示用户进行 individual exercises 的视频片段,并标注表现、常见错误等相关标签(约 30 万条长度约为 5-10 秒的剪辑)。 远程视频显示用户的锻炼 , 以及教练的一致评论(每个练习 5 - 6 次练习约 200 次) 健身助手数据集和基准测试 短健身剪辑数据集 高效的人机交互和基于视频的推理 详细架构 : 学习该说什么以及何时说 可步进式因果 3d 卷积可实现高效的流式运动感知 我们使用3D CNN作为特征提取器,我们已经证明它非常适合端到端学习(“端到端学习足以进行健身活动识别吗?”Mercier等,2023)。 现有的视觉语言模型使用二维 CNN 或视觉转换器作为视觉特征提取器 这使它们不适合用于健身教练等涉及人类行为和运动模式理解的任务。 可以使用可步进,因果关系卷积: 使用辅助任务改进流视频 LLM 语言生成不仅是一项有用的任务 , 而且还可以帮助模型获得一定程度的 “常识 ” 预训练模型完成一个困难的描述任务(Goyal等,2017年的Something-Something)……使我们能够在独立的家庭烹饪任务中提高预测准确性。 使用语言解码器在训练时向模型提供代理任务 视觉语言模型可以通过将视觉信息编码为语言来学习低级视觉技能 “看 , 记住和原因 : 具有语言模型的视频中的扎根推理 ”Bhattacharyya, et al. 2024 将视觉信息编码为语言是一种自然的方法来教导视觉-语言模型低级视觉技能,如物体识别、检测等。 这些视觉技能在推理时的作用类似于进行视觉推理任务的链式思考推理。 示例 : CATER (Girdhar 等人 , 2020 年) : 示例 : Something - Else (Materzynska 等人 , 2020) : 随机探测使我们能够将视觉技能提取到模型中 • 将提取的低级信息编码为令牌增加上下文窗口 , 这可能是低效的 • 依赖于低级计算机视觉特征的明确表示(如边界框位置)也可能导致模型的脆弱性。 • 因此,我们建议通过一种我们称之为随机探查(Stochastic Probing)的过程将低级视觉技能提炼到模型中: 随机探测 : 在训练过程中 , 以随机的时间步骤提示模型执行低级视觉任务 端到端训练结合随机探查使得模型能够在实时提供有用且准确的反馈。 定性结果 : 端到端学习使视频 LLM 能够提供准确的实时反馈 问题 : 为用户提供适当的反馈 教练 - 拉马 : 这太棒了。让我们保持高强度 !视频 - LLaMA : 我们看到一个年轻人站在厨房里 , 穿着红色衬衫和白色短裤。视频 - ChatGPT:用户已经成功地证明了在一对凳子上执行平衡动作的能力。 量化结果 : 端到端学习使视频 LLM 能够提供准确的实时反馈 Outlook : 用于机器人基础模型的 CLEVRskills 数据集 在设备上运行 AI 可节省内存成本并减少延迟 , 同时增强可靠性、安全性等。 我们的框架解决了诸如因果关系或组成性时空推理等方面当前方法的限制。 Qualcomm AI Research 在多模态 LM方面取得了最先进的成果 高通公司为 ML 社区提供了开发基于多模式交互的应用程序的工具 与我们联系 www. qualcomm. com / research / 人工智能 www. qualcomm. com / news / onq @ QCOMResearch www. youtube. com / c / QualcommResearch https: / / assets. qualcomm. com / mobile - computing - newsletter - sign- up. html www. slideshare. net /qualcommwirelessevolution 你 这些材料中的任何内容都不是出售此处引用的任何组件或设备的要约。© Qualcomm Technologies, Inc. 和 / 或其附属公司。保留所有权利。 Qualcomm和Snapdragon是高通公司(Qualcomm Incorporated)的商标或注册商标。其他产品和品牌名称可能是其各自所有者的商标或注册商标。 在本演示文稿中,“Qualcomm”的相关引用可能指代 Qualcomm Incorporated、Qualcomm Technologies, Inc. 以及 Qualcomm 公司结构内适用的其他子公司或业务单元。Qualcomm Incorporated 包括我们的许可业务、QTL 以及我们绝大多数的专利组合。Qualcomm Technologies, Inc.,Qualcomm Incorporated 的子公司,与其子公司共同运营几乎所有我们的工程、研究和开发功能,以及几乎所有我们的产品和服务业务,包括我们的 QCT 半导体业务。 高通技术公司及其子公司的产品包括骁龙和Qualcomm品牌的产品。Qualcomm的专利技术由Qualcomm Incorporated授权。 关注我们 : 有关更多信息 , 请访问 qualcomm. com 和 qualcomm.com / blog