行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

“人本”采集助力具身模型加速进化

2026-06-10 腾讯浮云

模型范式从直接预测动作（RIP VLA）转向预测未来世界+动作（WAM），数据需求也随之变化。

01 模型范式变化：从“观察→动作”的反应式策略（VLA）转向用未来世界状态作为额外监督和中间表征（WAM）。

VLA：视频帧作为密集监督，动作标签作为主要训练信号。
WAM：未来状态预测与动作预测共同作为训练信号，更充分利用物理交互序列。

02 数据需求变化：视频中的物理交互序列成为更密集的训练信号。

WAMera数据不仅需要动作标注，更要覆盖真实世界状态变化。

03 数据入口变化：需要低成本、多场景、少本体鸿沟的数据采集方式。

瓶颈：如何低成本地持续采集真实、多样、可对齐的人类操作数据。
答案：UMI数据（多样性+无本体化）。

为什么是UMI：

① Diversity上限更高：手持/穿戴式采集，任务、物体、环境覆盖面远高于单一机器人遥操作。
② Cross-embodiment gap更低：共享视角/轨迹/夹爪接口，减少人类示教、不同机械臂、末端执行器之间的本体差异。

UMI的核心价值：

更容易做长尾任务采样。
更适合构建真实世界数据飞轮。
训练数据更容易跨硬件复用。
为WAM/VLA提供更稳定的动作监督。

结论：

WAM需要“会动的世界数据”；UMI把真实人类操作变成可规模化、可对齐、可泛化的数据资产。

存储瓶颈与解决方案：

VLA大模型训练规模化后，存储成为关键瓶颈（多机共享不足、数据分散、存储带宽瓶颈）。
腾讯云COS+GooseFS高性能共享存储实现模型生产效率跃升：
- 统一管理多机协同。
- 安全可靠（全量写入COS降低数据丢失风险）。
- 高效训练（GooseFS多机共享能力及40 Gbps吞吐性能）。
- 数据闭环（支撑数据采集、预处理、训练与推理全流程）。

Livsyn产品体系：

从采集设备到数据平台，面向VLA/WAM的端侧无本体采集设备+LDP数据平台+训练评测闭环。
从UMI采集到WAM训练：端云一体化数据闭环。
- 核心价值：同一套无本体数据资产，既服务VLA，也为WAM提供世界状态预测所需的视频序列。

LivUMIGrip：

轻量化手持夹爪与多模态传感器融合，记录真实世界中的操作行为。
关键能力：无本体UMI、空间定位（8mm/1mm）、触觉+视觉同步（0.1N触觉分辨率）。

LivUMI Ego：

第一视角多模态人类操作采集。

LDP到模型训练：

平台不是单点工具，而是把采集、管理、训练、部署贯穿起来的基础设施。

世界模型era需要什么样的数据？从“RIP VLA”到WAM：答案指向UMI数据模型范式变了从直接预测动作，走向预测未来世界+动作 01 数据需求变了视频中的物理交互序列成为更密集的训练信号 02 数据入口也要变需要低成本、多场景、少本体鸿沟的数据采集方式 03 “RIP VLA, long live WAM”背后的问题：机器人需要先理解世界如何变化，再决定如何行动。今天的核心判断：WAMera的数据，不仅要有动作标注，更要能覆盖真实世界状态变化；UMI是规模化入口。为什么是WAM：世界模型+动作模型核心区别：VLA更像“观察→动作”的反应式策略；WAM用未来世界状态作为额外监督和中间表征。 •视频帧=密集监督•未来状态=物理动态表征•动作=可直接执行的策略输出训练信号主要落在动作标签上：每段演示最终被压缩成“该做什么动作”。训练信号同时来自未来视频/状态预测与动作预测：数据中的物理交互序列被更充分地利用。 VLA：动作标签 WAM需要什么样的数据？ By definition：带动作标注的视频序列；更进一步，要覆盖更多“世界状态变化” 因此，WAMera的数据瓶颈不是“有没有一台机器人”，而是“能不能低成本地持续采集真实、多样、可对齐的人类操作数据”。答案：UMI数据=多样性+无本体化 UMI把“真实世界的人类操作”变成机器人可学习的数据，同时降低跨本体差异。 ②Cross-embodiment gap更低 ①Diversity上限更高人类操作手持/穿戴式采集让人可以在真实场景里完成碎片化、低门槛采集；任务、物体、环境的覆盖面远高于单一机器人遥操作。共享视角/轨迹/夹爪接口UMI的关键不是“替代机器人数据”，而是把动作和观测对齐到更通用的接口，减少人类示教、不同机械臂、不同末端执行器之间的本体差异。 •更容易做长尾任务采样•更适合构建真实世界数据飞轮 •训练数据更容易跨硬件复用•为WAM/VLA提供更稳定的动作监督结论：WAM需要“会动的世界数据”；UMI把真实人类操作变成可规模化、可对齐、可泛化的数据资产。 VLA大模型训练规模化后，存储先成为关键瓶颈多机共享能力不足，数据可靠性存在隐患数据分散，形成训练数据孤岛存储带宽瓶颈制约模型训练与交付周期统一管理多机协同腾讯云COS+GooseFS高性能共享存储实现模型生产效率跃升对象存储COS作为数据的统一存储底座，结合GooseFS为存储加速。通过“海量稳定存储+高性能访问”的组合，为数据处理、模型训练和模型生产提供统一数据支撑。安全可靠采集数据全量写入COS，降低本地磁盘故障导致的数据丢失风险高效训练借助GooseFS的多机共享能力，及单客户端40 Gbps吞吐性能，有效提升训练效率数据闭环支撑数据采集、预处理、训练与推理的全流程数据流转，实现业务持续进化 Livsyn产品体系：从采集设备到数据平台面向VLA / WAM的端侧无本体采集设备+LDP数据平台+训练评测闭环。从UMI采集到WAM训练：端云一体化数据闭环同一套数据链路，服务VLA的动作学习，也服务WAM的世界状态预测与动作解析。核心价值：同一套无本体数据资产，既服务VLA，也为WAM提供世界状态预测所需的视频序列。 LivUMIGrip：把人类操作直接转化为可训练数据轻量化手持夹爪与多模态传感器融合，记录真实世界中的操作行为。关键能力无本体UMI 不依赖特定机器人本体，便于快速规模化采集空间定位便携版8mm /专业版1mm，支撑高质量动作标注触觉+视觉同步0.1N触觉分辨率（选配），双目与广角相机记录场景变化 LivUMI Grip 看到的每一个动作，下一秒就变成可供机器人复用的数据补足操作过程中的视觉上下文，让模型看到人类如何观察、接触并完成任务。LivUMI Ego：第一视角多模态人类操作采集平台不是单点工具，而是把采集、管理、训练、部署贯穿起来的基础设施。LDP到模型训练：服务VLA / WAM的数据闭环 THANKS

点击免费查看完整报告

“人本”采集助力具身模型加速进化

你可能感兴趣

物理AI时代的数据卖铲人，具身数据采集开启下一代数据基建浪潮

机械设备行业跟踪周报：推荐高景气的工程机械和油服设备；关注人形机器人具身模型进展投资机会

具身智能行业研究：智元发布具身模型EVAC与评价基准EWMBench，小米YU7发布有望成为爆款车型

机器人行业周报：具身模型 Pi06 鲁棒性大幅提升，国内人形初创百亿估值俱乐部增加至 6 家

国内外共振加速机器人板块进入黄金布局窗口国金具身cch团队

智元将举办线上机器人晚会全球人形机器人军备竞赛加速国金具身cch团队

【研选】我国首个专门就终端设备直连卫星的规范性文件发布，卫星应用有望提速；公司定位为“汽车+机器人Tier1”，新订单持续突破，加速拓展至具-身智能机器人..

智元第5000台机器人下线具身机器人商业化加速20251229

国君电子|AI模型加速进化,国产半导体突破在即

2024年人群模型报告-人本营销时代，破译以人为本的增长新范式

“人本”采集 助力具身模型加速进化

你可能感兴趣

物理AI时代的数据卖铲人，具身数据采集开启下一代数据基建浪潮

机械设备行业跟踪周报：推荐高景气的工程机械和油服设备；关注人形机器人具身模型进展投资机会

具身智能行业研究：智元发布具身模型EVAC与评价基准EWMBench，小米YU7发布有望成为爆款车型

机器人行业周报：具身模型 Pi06 鲁棒性大幅提升，国内人形初创百亿估值俱乐部增加至 6 家

国内外共振加速机器人板块进入黄金布局窗口国金具身cch团队

智元将举办线上机器人晚会全球人形机器人军备竞赛加速国金具身cch团队

【研选】我国首个专门就终端设备直连卫星的规范性文件发布，卫星应用有望提速；公司定位为“汽车+机器人Tier1”，新订单持续突破，加速拓展至具-身智能机器人..

智元第5000台机器人下线具身机器人商业化加速20251229

国君电子|AI模型加速进化,国产半导体突破在即

2024年人群模型报告-人本营销时代，破译以人为本的增长新范式

“人本”采集助力具身模型加速进化