您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [西北大学&哥伦比亚大学&麻省理工学院&斯坦福大学]:第二部分:基础模型邂逅物理智能体 - 发现报告

第二部分:基础模型邂逅物理智能体

报告封面

AAAI教程:基础模型与具身智能的融合 物理因素概述 :政策:……, …… → ……qobservation (images, robot proprioception, tactile, ...)q?:目标(本教程的自然语言)q�: 机器人控制指令q 清洗盘子 The机器人建筑学 The机器人建筑学 The机器人建筑学 The机器人建筑学 The机器人建筑学 The机器人建筑学 关键问题 物理因素 如何设计和构建“国家”通常涉及计算机视觉和信号处理技术。部分可观察性非常突出。 如何设计和构建“行动”通常涉及离散和连续参数。 如何设计和制定政策(高级和低级)高层:拾取和放置等原始功能底层:目标位置和速度等原始控制指令 q如何设计和构建转型模型与奖励函数地面真实情况未知 奖励函数通常难以手动定义 奖励函数还需要考虑人类偏好 From观测结果toStates 如何设计和构建“国家”q 通常涉及计算机视觉和信号处理技术。部分可观察性非常突出。 在这个教程中,我们将专注于获取关于“对象”q的表示。 愿景技术 3D场景理解 精确的3D场景理解真实环境 is crucial for reliable manipulation in 从视觉模型到视觉基础模型 趋势:在超大规模数据集上进行训练以实现广泛覆盖。q不同的任务通常被单独研究。q不同的任务依赖于不同的数据集(例如,固定词汇对象)(detection)q 虽然它们被称为“愿景FM”,但它们的设计目的是为了解决一个q特定任务 RGBD捕捉 对象检测 三种常用的目标检测方法q模块:无类别:Segment-Anythingq类别特定:Mask-RCNNq类别特定和开放词汇:qGrounding-DINO Need to knowcategories to bedetected Kirillov等人,“Segment Anything,” ICCV, 2023. He等人,“Mask R-CNN,” ICCV, 2017. Liu等人,“Grounding DINO: 将DINO与有监督预训练结合用于开放集目标检测,” arXiv, 2023. 从图像到3D模型 许多现有模型:RGB -> 3Dq Zero-1-to-3, InstantMesh, Instant3Dq Caveat: 通常它们效果不佳。q 刘等人,“Zero-1-to-3:零样本一张图像到三维物体”,ICCV,2023。徐等人,“InstantMesh:基于单图像的高效三维网格生成与稀疏视图大重建模型”,arXiv,2024。李等人,“Instant3D:结合稀疏视图生成与大重建模型的高速文本到三维技术”,arXiv,2023。 部分物体图像(需要修复) 许多方法如果我们知道q 该物体的名称 3D背投影 形状补全方法通常仅适用于RGB图像。q所以他们不知道三维形状的“实际大小”。q在获得对象的网格后,我们需要将其反投影。q关键词:点云配准q SceneComplete接收单个视角的RGB-D输入,并构建一个完整的、分割的、3D场景模型。 Agarwal等人,“SceneComplete:在复杂真实世界环境中为机器人操作进行的开放世界3D场景补全”,arXiv,2024 对象Tracking 当物体正在移动时,我们需要q 三种常用的跟踪模块:q遮罩追踪器:Segment-Anything 2q要跟踪它!否则我们就不知道对象q跨州对应关系 Ravi 等人,“SAM 2: 在图像和视频中分割任何内容”,ICLR,2025。Doersch 等人,“TAPIR: 基于逐帧初始化和时间细化跟踪任意点”,arXiv,2023。Karaev 等人,“CoTracker: 一起跟踪更好”,ECCV,2024。Wen 等人,“FoundationPose: 新物体统一 6D 姿态估计和跟踪”,CVPR,2024。 当物体正在移动时,我们需要q 三种常用的跟踪模块:q遮罩追踪器:Segment-Anything 2q点追踪器:Track-Any-Point,qCoTracker2要跟踪它!否则我们就不知道对象q跨州对应关系 Ravi 等人,“SAM 2: 在图像和视频中分割任何内容”,ICLR,2025。Doersch 等人,“TAPIR: 具有逐帧初始化和时间细化的任意点跟踪”,arXiv,2023。Karaev 等人,“CoTracker: 一起跟踪更好”,ECCV,2024。Wen等人,“FoundationPose: 新颖物体的统一 6D 姿态估计和跟踪”,CVPR,2024。 当物体正在移动时,我们需要q 姿态追踪器:基础姿态q要跟踪它!否则我们就不知道对象q跨州对应关系三种常用的跟踪模块:q遮罩追踪器:Segment-Anything 2q点追踪器:Track-Any-Point,qCoTracker2 Ravi 等人,“SAM 2: 在图像和视频中分割所有内容”(Ravi et al., “SAM 2: Segment Anything in Images and Videos”), ICLR, 2025. Doersch 等人,“TAPIR: 基于逐帧初始化和时序优化的任意点跟踪”(TAPIR: TrackingAny Point with per-frame Initialization and temporal Refinement), arXiv,2023. Karaev 等人,“CoTracker: 一起跟踪更好”(CoTracker: It is Betterto Track Together), ECCV, 2024. Wen 等人,“FoundationPose: 新物体统一 6D 位姿估计和跟踪”(FoundationPose: Unified 6D Pose Estimatio 摘要 许多二维和三维计算机视觉技术是构建对象-q 以中心状态表示现在我们为其中的所有(事物)拥有越来越好基础模型。q然而,我们仍然没有一个适用于所有任务的“单一”基础模型。q此外,许多模型并未针对机器人应用进行调优。q不同的规划和控制算法可能需要不同级别的详细信息。q 高级:空间定位与地图构建 高级:以对象为中心的SLAM 先进:细分不足规范 根据任务的不同,你qneed to segment objects at different granularities 高级:细分不确定性 Fang等人,“具身不确定性感知的目标分割,”IROS,2024。 许多其他感知领域的前沿课题 深度传感器降噪qarticulated object perceptionq主动感知物理特性qSLAM与动态物体q不确定性任务的表征q 大多数系统采用两级设计:高级和低级。 最低层级操作:我应该应用多少电流?通常运行在 >1000Hz “低级别”行动: 目标位置 / 速度(机器人关节) 目标位置 / 速度(机器人末端执行器) 高级行动通常以对象为中心q不同的算法可能会使用不同的粒度。q 行动grasp(object): grasp_pos =find_grasp(object) traj =find_trajectory(current_pos(), grasp_pos)执行(traj)关闭夹爪() 行动place(object, surface): place_pos =find_place(object, surface) traj =find_trajectory(current_pos(), place_pos)执行(traj)open_gripper() 集成低层与高层行动 action pickup(a: object): findt1, s1: s1 = dynamics(t1) collision_free(t1) holding_target(s1,a) 路径约束联合限制no collision 集成低层与高层行动 Subgoal1:holding thetarget 摘要 低级别行动:关节和末端执行器指令q高层行动:以对象为中心的命令q集成低层和高层行动:通常基于有限的条件q优化框架 如何应对人类干扰和其他内源性事件在一个多-q水平系统?简单的解决方案,但通常不可扩展:在整个过程中执行动作选择。q在高频层的层次