您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:“人本”采集 助力具身模型加速进化 - 发现报告

“人本”采集 助力具身模型加速进化

2026-06-10 腾讯 浮云
报告封面

世界模型era需要什么样的数据? 从“RIP VLA”到WAM:答案指向UMI数据 模型范式变了从直接预测动作,走向预测未来世界+动作 01 数据需求变了视频中的物理交互序列成为更密集的训练信号 02 数据入口也要变需要低成本、多场景、少本体鸿沟的数据采集方式 03 “RIP VLA, long live WAM”背后的问题:机器人需要先理解世界如何变化,再决定如何行动。 今天的核心判断:WAMera的数据,不仅要有动作标注,更要能覆盖真实世界状态变化;UMI是规模化入口。 为什么是WAM:世界模型+动作模型 核心区别:VLA更像“观察→动作”的反应式策略;WAM用未来世界状态作为额外监督和中间表征。 •视频帧=密集监督•未来状态=物理动态表征•动作=可直接执行的策略输出 训练信号主要落在动作标签上:每段演示最终被压缩成“该做什么动作”。 训练信号同时来自未来视频/状态预测与动作预测:数据中的物理交互序列被更充分地利用。 VLA:动作标签 WAM需要什么样的数据? By definition:带动作标注的视频序列;更进一步,要覆盖更多“世界状态变化” 因此,WAMera的数据瓶颈不是“有没有一台机器人”,而是“能不能低成本地持续采集真实、多样、可对齐的人类操作数据”。 答案:UMI数据=多样性+无本体化 UMI把“真实世界的人类操作”变成机器人可学习的数据,同时降低跨本体差异。 ②Cross-embodiment gap更低 ①Diversity上限更高 人类操作 手持/穿戴式采集让人可以在真实场景里完成碎片化、低门槛采集;任务、物体、环境的覆盖面远高于单一机器人遥操作。 共享视角/轨迹/夹爪接口UMI的关键不是“替代机器人数据”,而是把动作和观测对齐到更通用的接口,减少人类示教、不同机械臂、不同末端执行器之间的本体差异。 •更容易做长尾任务采样•更适合构建真实世界数据飞轮 •训练数据更容易跨硬件复用•为WAM/VLA提供更稳定的动作监督 结论:WAM需要“会动的世界数据”;UMI把真实人类操作变成可规模化、可对齐、可泛化的数据资产。 VLA大模型训练规模化后,存储先成为关键瓶颈 多机共享能力不足,数据可靠性存在隐患 数据分散,形成训练数据孤岛 存储带宽瓶颈制约模型训练与交付周期 统一管理多机协同 腾讯云COS+GooseFS高性能共享存储实现模型生产效率跃升 对象存储COS作为数据的统一存储底座,结合GooseFS为存储加速。通过“海量稳定存储+高性能访问”的组合,为数据处理、模型训练和模型生产提供统一数据支撑。 安全可靠 采集数据全量写入COS,降低本地磁盘故障导致的数据丢失风险 高效训练 借助GooseFS的多机共享能力,及单客户端40 Gbps吞吐性能,有效提升训练效率 数据闭环 支撑数据采集、预处理、训练与推理的全流程数据流转,实现业务持续进化 Livsyn产品体系:从采集设备到数据平台 面向VLA / WAM的端侧无本体采集设备+LDP数据平台+训练评测闭环。 从UMI采集到WAM训练:端云一体化数据闭环 同一套数据链路,服务VLA的动作学习,也服务WAM的世界状态预测与动作解析。 核心价值:同一套无本体数据资产,既服务VLA,也为WAM提供世界状态预测所需的视频序列。 LivUMIGrip:把人类操作直接转化为可训练数据轻量化手持夹爪与多模态传感器融合,记录真实世界中的操作行为。 关键能力 无本体UMI 不依赖特定机器人本体,便于快速规模化采集 空间定位便携版8mm /专业版1mm,支撑高质量动作标注 触觉+视觉同步0.1N触觉分辨率(选配),双目与广角相机记录场景变化 LivUMI Grip 看到的每一个动作,下一秒就变成可供机器人复用的数据 补足操作过程中的视觉上下文,让模型看到人类如何观察、接触并完成任务。LivUMI Ego:第一视角多模态人类操作采集 平台不是单点工具,而是把采集、管理、训练、部署贯穿起来的基础设施。LDP到模型训练:服务VLA / WAM的数据闭环 THANKS