行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

第二部分：基础模型邂逅物理智能体

信息技术 2025-02-25 - 西北大学&哥伦比亚大学&麻省理工学院&斯坦福大学赵小强

2物理因素概述

政策机器人动作清洗盘子：政策：......, ...... → ......qobservation (images, robot proprioception, tactile, ...)q?:目标（本教程的自然语言）q�: 机器人控制指令 4The机器人建筑学观察结果perception状态估计目标解释规划者执行监控控制器行动 5The机器人建筑学观察结果perception状态估计目标解释规划者感知与状态估计：执行监控从过去的观察中恢复状态控制器行动 6The机器人建筑学观察结果perception状态估计目标解释规划者目标解读执行监控理解人类意图控制器行动 7The机器人建筑学观察结果perception状态估计目标解释规划者规划师（通常<20 Hz）执行监控生成控制指令例如，机器人的目标位置控制器行动 8The机器人建筑学观察结果perception状态估计目标解释规划者ExeMon + 控制器（通常 > 1000 Hz）执行监控控制机器人并处理意外情况（例如，安全）控制器行动 9휋표,푔→푎The机器人建筑学观察结果perception状态估计目标解释规划者执行监控政策控制器行动 10关键问题物理因素
- 如何设计和构建“国家”qqq如何设计和制定政策（高级和低级）
  - 高层：拾取和放置等原始功能
  - 底层：目标位置和速度等原始控制指令
- 如何设计和构建“行动”
  - 通常涉及离散和连续参数
  - 通常涉及计算机视觉和信号处理技术
  - 部分可观察性非常突出
- 如何设计和构建转型模型与奖励函数
  - 地面真实情况未知
  - 奖励函数通常难以手动定义
  - 奖励函数还需要考虑人类偏好 11在这个教程中，我们将专注于获取关于“对象”q的表示。From观测结果toStates
- 如何设计和构建“国家”q
  - 通常涉及计算机视觉和信号处理技术
  - 部分可观察性非常突出 12VLMsTracking图像到3D细分市场愿景技术检测 13避碰可靠的安置掌握3D场景理解from图像q精确的3D场景理解is crucial for reliable manipulation in真实环境 14从视觉模型到视觉基础模型趋势：在超大规模数据集上进行训练以实现广泛覆盖。
- 不同的任务通常被单独研究
- 不同的任务依赖于不同的数据集（例如，固定词汇对象）(detection)
- 虽然它们被称为“愿景FM”，但它们的设计目的是为了解决一个q特定任务 15RGBD捕捉 16对象检测
- Need to knowcategories to bedetected
- 三种常用的目标检测方法
  - 模块：无类别：Segment-Anything
  - 类别特定：Mask-RCNN
  - 类别特定和开放词汇：qGrounding-DINO 17从图像到3D模型
- 许多现有模型：RGB -> 3D
  - Zero-1-to-3, InstantMesh, Instant3D
- Caveat: 通常它们效果不佳
- 部分物体图像（需要修复）许多方法如果我们知道q该物体的名称 18
- 3D背投影形状补全方法通常仅适用于RGB图像。
  - 所以他们不知道三维形状的“实际大小”。
- 在获得对象的网格后，我们需要将其反投影。
  - 关键词：点云配准 19场景由机器人捕捉重建场景场景完成Agarwal等人，“SceneComplete：在复杂真实世界环境中为机器人操作进行的开放世界3D场景补全”，arXiv，2024
- SceneComplete接收单个视角的RGB-D输入，并构建一个完整的、分割的、3D场景模型。 20对象Tracking
- 三种常用的跟踪模块：
  - 遮罩追踪器：Segment-Anything 2
  - 点追踪器：Track-Any-Point
  - CoTracker
- 当物体正在移动时，我们需要q要跟踪它！否则我们就不知道对象q跨州对应关系 21对象Tracking（重复内容） 22姿态追踪器：基础姿态对象Tracking
- 三种常用的跟踪模块：
  - 遮罩追踪器：Segment-Anything 2
  - 点追踪器：Track-Any-Point
  - CoTracker
- 当物体正在移动时，我们需要q要跟踪它！否则我们就不知道对象q跨州对应关系 23摘要
- 许多二维和三维计算机视觉技术是构建对象-q以中心状态表示现在我们为其中的所有（事物）拥有越来越好基础模型。
- 然而，我们仍然没有一个适用于所有任务的“单一”基础模型。
- 此外，许多模型并未针对机器人应用进行调优。
- 不同的规划和控制算法可能需要不同级别的详细信息。 24高级：空间定位与地图构建Reinke等人，《LOCUS 2.0：鲁棒且计算高效的激光雷达里程计，用于实时3D地图构建》，《R-AL》，2022年。 25高级：以对象为中心的SLAMMaggio等人，“Clio：实时任务驱动开放集3D场景图”，R-AL，2024。 26先进：细分不足规范根据任务的不同，你qneed to segment objects at different granularities 27高级：细分不确定性q通常需要交互来消除歧义Fang等人，“具身不确定性感知的目标分割，”IROS，2024。 28许多其他感知领域的前沿课题
- 深度传感器降噪
- articulated object perception
- 主动感知物理特性
- SLAM与动态物体
- 不确定性任务的表征 29从国家到行动：等级制度
- 大多数系统采用两级设计：高级和低级。 30低级别操作界面
- 最低层级操作：我应该应用多少电流？
  - 通常运行在 >1000Hz
- “低级别”行动：
  - 目标位置 / 速度（机器人关节）
  - 目标位置 / 速度（机器人末端执行器） 31来自Franka Research 3手册的图表低级别操作界面联合末端执行器 32高层行动接口
- 行动grasp(object): grasp_pos =find_grasp(object) traj =find_trajectory(current_pos(), grasp_pos)执行(traj)关闭夹爪()
- 行动place(object, surface): place_pos =find_place(object, surface) traj =find_trajectory(current_pos(), place_pos)执行(traj)open_gripper()
- 高级行动通常以对象为中心
  - 不同的算法可能会使用不同的粒度。 33集成低层与高层行动技能：pickup路径约束联合限制no collision子目标约束：holding the targetaction pickup(a: object): find t1, s1: s1 = dynamics(t1) collision_free(t1) holding_target(s1,a) 34풔ퟎ풕ퟐ,풕ퟐ,풔ퟐ,풔ퟐ$|+|푡%|!,푡",푠")",푡#,푠#)")#)")#)#)集成低层与高层行动Subgoal2plate on therack路径约束联合限制no collisiongivenfindminimize |�

AAAI教程：基础模型与具身智能的融合物理因素概述：政策：……, …… → ……qobservation (images, robot proprioception, tactile, ...)q?:目标（本教程的自然语言）q�: 机器人控制指令q 清洗盘子 The机器人建筑学 The机器人建筑学 The机器人建筑学 The机器人建筑学 The机器人建筑学 The机器人建筑学关键问题物理因素如何设计和构建“国家”通常涉及计算机视觉和信号处理技术。部分可观察性非常突出。如何设计和构建“行动”通常涉及离散和连续参数。如何设计和制定政策（高级和低级）高层：拾取和放置等原始功能底层：目标位置和速度等原始控制指令 q如何设计和构建转型模型与奖励函数地面真实情况未知奖励函数通常难以手动定义奖励函数还需要考虑人类偏好 From观测结果toStates 如何设计和构建“国家”q 通常涉及计算机视觉和信号处理技术。部分可观察性非常突出。在这个教程中，我们将专注于获取关于“对象”q的表示。愿景技术 3D场景理解精确的3D场景理解真实环境 is crucial for reliable manipulation in 从视觉模型到视觉基础模型趋势：在超大规模数据集上进行训练以实现广泛覆盖。q不同的任务通常被单独研究。q不同的任务依赖于不同的数据集（例如，固定词汇对象）(detection)q 虽然它们被称为“愿景FM”，但它们的设计目的是为了解决一个q特定任务 RGBD捕捉对象检测三种常用的目标检测方法q模块：无类别：Segment-Anythingq类别特定：Mask-RCNNq类别特定和开放词汇：qGrounding-DINO Need to knowcategories to bedetected Kirillov等人，“Segment Anything,” ICCV, 2023. He等人，“Mask R-CNN,” ICCV, 2017. Liu等人，“Grounding DINO: 将DINO与有监督预训练结合用于开放集目标检测,” arXiv, 2023. 从图像到3D模型许多现有模型：RGB -> 3Dq Zero-1-to-3, InstantMesh, Instant3Dq Caveat: 通常它们效果不佳。q 刘等人，“Zero-1-to-3：零样本一张图像到三维物体”，ICCV，2023。徐等人，“InstantMesh：基于单图像的高效三维网格生成与稀疏视图大重建模型”，arXiv，2024。李等人，“Instant3D：结合稀疏视图生成与大重建模型的高速文本到三维技术”，arXiv，2023。部分物体图像（需要修复）许多方法如果我们知道q 该物体的名称 3D背投影形状补全方法通常仅适用于RGB图像。q所以他们不知道三维形状的“实际大小”。q在获得对象的网格后，我们需要将其反投影。q关键词：点云配准q SceneComplete接收单个视角的RGB-D输入，并构建一个完整的、分割的、3D场景模型。 Agarwal等人，“SceneComplete：在复杂真实世界环境中为机器人操作进行的开放世界3D场景补全”，arXiv，2024 对象Tracking 当物体正在移动时，我们需要q 三种常用的跟踪模块：q遮罩追踪器：Segment-Anything 2q要跟踪它！否则我们就不知道对象q跨州对应关系 Ravi 等人，“SAM 2: 在图像和视频中分割任何内容”，ICLR，2025。Doersch 等人，“TAPIR: 基于逐帧初始化和时间细化跟踪任意点”，arXiv，2023。Karaev 等人，“CoTracker: 一起跟踪更好”，ECCV，2024。Wen 等人，“FoundationPose: 新物体统一 6D 姿态估计和跟踪”，CVPR，2024。当物体正在移动时，我们需要q 三种常用的跟踪模块：q遮罩追踪器：Segment-Anything 2q点追踪器：Track-Any-Point，qCoTracker2要跟踪它！否则我们就不知道对象q跨州对应关系 Ravi 等人，“SAM 2: 在图像和视频中分割任何内容”，ICLR，2025。Doersch 等人，“TAPIR: 具有逐帧初始化和时间细化的任意点跟踪”，arXiv，2023。Karaev 等人，“CoTracker: 一起跟踪更好”，ECCV，2024。Wen等人，“FoundationPose: 新颖物体的统一 6D 姿态估计和跟踪”，CVPR，2024。当物体正在移动时，我们需要q 姿态追踪器：基础姿态q要跟踪它！否则我们就不知道对象q跨州对应关系三种常用的跟踪模块：q遮罩追踪器：Segment-Anything 2q点追踪器：Track-Any-Point，qCoTracker2 Ravi 等人，“SAM 2: 在图像和视频中分割所有内容”（Ravi et al., “SAM 2: Segment Anything in Images and Videos”), ICLR, 2025. Doersch 等人，“TAPIR: 基于逐帧初始化和时序优化的任意点跟踪”（TAPIR: TrackingAny Point with per-frame Initialization and temporal Refinement), arXiv,2023. Karaev 等人，“CoTracker: 一起跟踪更好”（CoTracker: It is Betterto Track Together), ECCV, 2024. Wen 等人，“FoundationPose: 新物体统一 6D 位姿估计和跟踪”（FoundationPose: Unified 6D Pose Estimatio 摘要许多二维和三维计算机视觉技术是构建对象-q 以中心状态表示现在我们为其中的所有（事物）拥有越来越好基础模型。q然而，我们仍然没有一个适用于所有任务的“单一”基础模型。q此外，许多模型并未针对机器人应用进行调优。q不同的规划和控制算法可能需要不同级别的详细信息。q 高级：空间定位与地图构建高级：以对象为中心的SLAM 先进：细分不足规范根据任务的不同，你qneed to segment objects at different granularities 高级：细分不确定性 Fang等人，“具身不确定性感知的目标分割，”IROS，2024。许多其他感知领域的前沿课题深度传感器降噪qarticulated object perceptionq主动感知物理特性qSLAM与动态物体q不确定性任务的表征q 大多数系统采用两级设计：高级和低级。最低层级操作：我应该应用多少电流？通常运行在 >1000Hz “低级别”行动：目标位置 / 速度（机器人关节）目标位置 / 速度（机器人末端执行器）高级行动通常以对象为中心q不同的算法可能会使用不同的粒度。q 行动grasp(object): grasp_pos =find_grasp(object) traj =find_trajectory(current_pos(), grasp_pos)执行(traj)关闭夹爪() 行动place(object, surface): place_pos =find_place(object, surface) traj =find_trajectory(current_pos(), place_pos)执行(traj)open_gripper() 集成低层与高层行动 action pickup(a: object): findt1, s1: s1 = dynamics(t1) collision_free(t1) holding_target(s1,a) 路径约束联合限制no collision 集成低层与高层行动 Subgoal1:holding thetarget 摘要低级别行动：关节和末端执行器指令q高层行动：以对象为中心的命令q集成低层和高层行动：通常基于有限的条件q优化框架如何应对人类干扰和其他内源性事件在一个多-q水平系统？简单的解决方案，但通常不可扩展：在整个过程中执行动作选择。q在高频层的层次

点击免费查看完整报告

你可能感兴趣

第二部分：基础模型邂逅物理智能体

你可能感兴趣

基础模型邂逅具身智能体

英伟达Cosmos世界基础模型平台物理人工智能研究报告

Cosmos世界基础模型平台：物理人工智能研究报告

1346腾讯云智能体开发平台涨价部分模型结束免费公测

cosmos世界基础模型平台：面向物理ai的世界基础模型平台