AI智能总结
BAAI 机器人脑团队 请参阅贡献者和作者列表以获取更多作者详细信息。 摘要 我们介绍RoboBrain 2.0,我们最新的具身视觉语言基础模型,设计用于统一物理环境中复杂具身任务的感知、推理和规划。它提供两种变体:轻量级的7B模型和全规模的32B模型,采用异构架构,包含视觉编码器和语言模型。尽管体型紧凑,RoboBrain 2.0在各种具身推理任务上实现了强劲性能。在空间和时间基准测试中,32B变体取得了领先结果,超越了之前的开源和专有模型。特别是它支持关键的具身人工智能能力,包括空间理解(例如,可供性预测、空间指称、轨迹预测)和时序决策(例如,闭环交互、多智能体长时程规划和场景图更新)。本报告详细介绍了模型架构、数据构建、多阶段训练策略、基础设施和实践应用。我们希望RoboBrain 2.0推动具身人工智能研究,并作为构建通用具身智能体的实用步骤。代码、检查点和基准测试可在https://superrobobrain.github.io. 内容 1 引言................................................3 2.1 输入模态和分词................................. 52.2 视觉编码器与投影................................... 52.3 大语言模型解码器和输出表示............................ 6 3 训练数据...............................................6 3.1 一般的MLLM问答......................................... 63.2 空间数据............................................. 73.3 时间数据............................................ 8 4.1 第一阶段:基础时空学习.......................... 94.2 第2阶段:具身时空增强......................... 104.3 阶段 3:具身环境中的思维链推理.................. 10 5.1 大规模训练基础设施................................. 115.1.1 多维混合并行........................... 115.1.2 预分配内存.................................... 115.1.3 数据预处理..................................... 115.1.4 分布式数据加载.................................. 125.1.5 容错性........................................ 125.2 强化微调基础设施............................. 125.3 推理基础设施....................................... 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .136 评估结果 6.1 空间推理能力.................................... 136.2 时间推理能力................................... 15 8 贡献者名单..................................... 22 A.1 指向示例........................................ 23A.2 有关可供性的示例....................................... 40A.3 轨迹示例....................................... 42A.4 EgoPlan2的示例....................................... 44A.5 闭环交互示例................................ 47A.6 多机器人规划示例................................ 51A.7 合成基准示例................................ 52 B.1 空间理解:坐标——指向.......................... 54B.2 空间理解:坐标 - 轨迹......................... 54B.3 空间理解:边界框——可供性....................... 54B.4 空间理解:自由形式问答——一般空间分析............... 55B.5 时间理解:长时规划......................... 55B.6 时间理解:闭环对话....................... 55B.7 时间理解:多机器人规划......................... 55 1 引言 近年来,大型语言模型(LLMs)和视觉语言模型(VLMs)已成为推动通用人工智能(AGI)发展的关键驱动力。在数字环境中,这些模型在感知[5,16,83],理解[22,73], 以及推理[2,17,18,45,65)], 并且已广泛应用于诸如多模态问答等任务中 [35,60], 图像生成和编辑 [24,57], 图形用户界面控制 [37,71], 和视频理解 [7,63,72].它们也在教育、医疗保健、搜索和智能助手等实际领域看到了早期采用[11,21,82]. 然而,弥合“数字智能”与“物理智能”之间的差距——使模型能够感知其周围环境、理解具身任务并与真实世界互动——仍然是通往通用人工智能(AGI)道路上的一个关键挑战。具身基础模型[4,64,74]代表了迈向物理智能的一个有前景的研究方向。近期的一些努力将LLMs和VLMs的能力扩展到了具身场景,推进了多模态融合、感知和行动执行。虽然这些模型取得了令人鼓舞的进展,但它们在部署到复杂且开放式的现实环境中时,仍然面临三个基本能力瓶颈:(1) 有限的空间理解:当前模型难以准确建模相对和绝对空间关系,并识别物理环境中的可供性,这阻碍了其在现实世界中的应用;(2) 弱时序建模对多阶段、跨代理时序依赖和反馈机制的缺乏理解限制了长时程规划和闭环控制;(3)推理链不足:现有模型往往无法从复杂的人类指令中提取因果逻辑,并将其与动态环境状态进行对齐,这限制了它们在开放式具身任务中的泛化能力。 为应对这些挑战,我们提出RoboBrain 2.0,我们最新的具身视觉语言基础模型,专为在物理环境中连接感知、推理和规划而设计。Robo-Brain 2.0 在统一架构中处理视觉观察和语言指令,实现环境整体理解、目标导向推理和长时程规划。我们发布该模型的两个变体:轻量级RoboBrain 2.0–7B和全尺寸RoboBrain 2.0–32B,设计用来满足在不同资源限制下的不同部署需求。在空间推理和时间推理基准测试中,32B版本大多实现了最先进性能,超越了之前的开源和专有模型,如图所示图1. 模型能力总结在图2. 本报告系统概述了设计原则、核心组件和关键技术创新。特别地,我们强调了支持空间理解、时间推理和因果推理的广泛数据贡献,这些构成了RoboBrain 2.0能力的基石。为解决空间数据的稀缺问题,我们开发了一个空间数据合成管道,该管道构建涵盖指向、可供性预测和轨迹生成等任务的大规模、高质量数据集。为提升时间推理和反馈建模能力,我们通过RoboOS设计了一系列跨常见场景的多机器人协调模板[61], 使用外部模型生成跨智能体长时程规划轨迹 [31], 并模拟随机故障事件以收集闭环反馈数据,从而增强模型鲁棒性。为进一步丰富推理数据,我们从强大的推理 VLM中提取逐步思维轨迹 [22在时空任务上下文条件下], 这些轨迹作为学习跨视觉、语言和行动因果链的监督信号。 robrain 2.0 采用高效异构架构和渐进式多阶段训练策略,以支持具身环境下的空间理解、时间建模和长链因果推理。该模型包含一个参数量约为 689M 的轻量级视觉编码器和一个仅解码器的语言模型(参数量为 7B/32B)。它使用三阶段课程—涵盖基础时空学习、具身时空增强和思维链推理—在大规模多模态和具身数据集上进行训练。训练使用我们的开源框架进行。FlagScale,该架构集成了混合并行处理、预分配内存优化、高吞吐量I/O管道和强大的容错能力。这些基础设施创新显著降低了训练和部署成本,同时确保了大规模多模态模型的可扩展性。我们在超过12个公开基准上评估了RoboBrain 2.0,涵盖空间理解、时序建模和多模态推理,尽管其体积紧凑,但在其中的6个基准上取得了最先进的结果。我们发布代码、检查点和基准作为开源资源,以惠及研究社区。这些材料有助于可重复 图2 RoboBrain 2.0的功能概述。RoboBrain 2.0 支持基于长时程规划和闭环反馈的交互推理,空间感知用于从复杂指令中进行精确的点及边界框预测,时间感知用于未来轨迹估计,并通过实时场景图构建和更新进行场景推理。 研究,加速具身人工智能开发,并实现机器人在实际系统中的部署。 为了全面展示RoboBrain 2.0的架构、训练方法及能力,本报告的结构安排如下:第二节介绍了整体模型设计,包括视觉编码器和语言模型之间的协调,以及图像和视频输入策略。第三节描述了数据管理和构建过程,涵盖三大主要类别:通用多模态理解、空间推理和时间建模。第四章介绍了我们的多阶段训练策略,包括基础时空学习、具身增强和思维链推理。第五节 概述了支持可扩展训练和推理的基础设施堆栈,包括混合并行化、内存优化、数据加载和故障恢复。第六节在公共基准测试上报告了广泛的评估结果,突出了RoboBrain 2.0在空间推理、时间反馈和具身规划方面的能力。最后,第七节讨论了当前局限性,并概述了未来研究方向。 2 建筑 RoboBrain 2.0 采用了一种模块化的编码器-解码器架构,将感知、推理和规划统一用于复杂的具身任务。如图3,它通过四个核心组件处理多视图视觉观测和自然语言指令:(1)一个用于文本/结构化输入的标记器,(2)一个视觉编码器,(3)一个将视觉特征映射到语言模型标记空间的MLP投射器,以及(4)一个从Qwen2.5-VL初始化的语言模型主干。5)].与传统视觉语言模型[2,22]专注于通用静态vqa,RoboBrain 2.0在保持强大通用vqa能力的同时,专精于具身推理任务,如空间感知、时序建模和长链因果推理。该架构将高分辨率图像、多视图输入、视频帧、语言指令和场景图编码为统一的跨模态token序列,以进行综合处理。 图3 RoboBrain 2.0架构该模型支持多图像、长视频和高分辨率视觉输入,以及在语言侧的复杂任务指令和结构化场景图。视觉输入通过视觉编码器和MLP投射器进行处理,而文本输入被标记化为统一的标记流。所有输入都输入到LLM解码器中,该解码器执行长链式思维推理,并根据任务生成各种输出,包括结构化计划、空间关系或相对和绝对坐标。 2.1 输入模态和分词 robobrain 2.0 支持一系列针对具身ai任务的输入模态: •)).••语言说明:描述高级目标或低级操作的自然语言命令。robrain 2.0 处理跨越不同抽象层级的自然语言命令:从高级空间锚定指令(例如,“将苹果拿到最近的桌子旁,与最左边的杯子对齐”到低级电机指令(例如,)“导航到最近的桌子”,“抓住苹果”,“检测位置”与最左边的杯子对齐