您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国泰海通证券]:物理AI时代的数据卖铲人,具身数据采集开启下一代数据基建浪潮 - 发现报告

物理AI时代的数据卖铲人,具身数据采集开启下一代数据基建浪潮

房地产 2026-05-07 国泰海通证券 Aaron
报告封面

物理AI时代的数据“卖铲人”,具身数据采集开启下一代数据基建浪潮 摘要:NextX系列(2):超级智能时代(二) 汪玥(分析师)021-38031030wangyue8@gtht.com登记编号S0880525080001 鲍雁辛(分析师)0755-23976830baoyanxin@gtht.com登记编号S0880513070005 真实数据、仿真/合成数据与视频数据构成行业数据采集三大解决方案,打造虚实融合的高效数据闭环或是可行方案。在数据金字塔中,互联网数据作为根基,海量的在线视频与文本提供了模型训练所需的规模与多样性,但噪声过滤与动作对齐技术仍是攻关难点。仿真数据作为中层,通过仿真器大规模生成,可扩展性高,是破解数据瓶颈的重要路径,但需克服仿真到现实的差距。顶层是最稀缺宝贵的真实数据,直接从机器人硬件端采集,对模型的精准微调与最终性能验证具有不可替代的价值,但受制于高昂采集成本尚难以规模化。我们认为:(1)仿真/视频数据与真实数据相结合的路径,或是未来数据采集与训练的主流方向;(2)仿真/视频数据将主要用于预训练,而真实数据则更多用于VLA微调和强化学习。 供需共振下的量贩零食行业:空间、格局与未来方向2026.05.06递送破局,范式革新,加速推动成药革命——siRNA药物深度报告(一)2026.04.27半导体材料系列(三):12英寸硅片引领大尺寸化趋势2026.04.09【深度】2026年一季度A股并购市场复盘及后续投资展望2026.04.03奇点来临,AI科技使能的AI分身加速驱动并放大人类的价值实现2026.03.17 真实数据匮乏、仿真迁移鸿沟与长尾挑战构成制约具身数据采集的重要瓶颈,数据采集训练场、开放数据生态与数据质量评估体系的加速建设夯实行业数据基座。全国首个具身智能领域国家级标准化试点“上海虚实融合具身智能训练场”落地,开启国家级数据归集、标准统一、共建生态、场景落地的新征程;谷歌DeepMind、星海图、傅利叶机器人、智元机器人等厂商纷纷发布开源数据集,开源生态将快速降低入门技术门槛、推动多场景智能化落地、通过并行化创新加速技术迭代、促进构建创新生态协同;中国信通院与国地中心联合牵头,推动国内首个行业标准的研制,从源头上控制数据冗余与噪声。 围绕三大具身数据来源,行业技术路线呈现多元化发展态势。本体厂商方面,以智元机器人、自变量机器人、特斯拉Optimus(早期)、1X Technologies等公司为代表的“真实数据派”,通过本体部署、动作捕捉、遥操作等方式在真实场景采集数据;以银河通用为典型代表的“合成/仿真数据派”,主要利用合成数据进行预训练并结合少量真实数据进行优化;众多厂商正在积极布局视频数据这一新兴方向,如千寻智能、逐际动力、星动纪元、特斯拉Optimus、Skild AI、Figure AI等,通过互联网视频进行大规模训练,减少对真实数据源的依赖;总体上,大部分厂商普遍采用仿真/视频与真实数据结合、预训练与后训练协同的策略,以推动机器人能力迭代与场景落地。数据供应商一级市场标的中,枢途科技发布SynaData视频数据解决方案、跨维智能提出视频学习新框架、光轮智能打造全链路合成数据体系、第六动力聚焦真实数据、艾欧智能较专注遥操作方案;二级市场标的中,海天瑞声采取多元数据方案、索辰科技推出虚拟训练平台。 风险提示:技术路线收敛、市场竞争加剧、行业技术投入不达预期、政策落地不及预期。 请务必阅读正文之后的免责条款部分1of29 目录 1.世界模型重塑智能基石,具身数据范式迈向全面变革................................31.1.从“理解语言”进化到“理解世界和预测未来”.........................................31.2.理论与实践发展并行,自2025年迎来应用落地元年............................41.3.赋能三大应用场景,其中具身智能备受瞩目.........................................52. “数据采集”驱动行业数据飞轮构建,三大主流采集方案并行......................82.1.数据采集是实现突破性发展的重要一环................................................82.2.三大主流数据采集方案利弊共存,视频数据成为业内关注新焦点........92.2.1.真实数据:高保真而采集成本高昂...............................................102.2.2.合成/仿真数据:高性价比但存在Sim2Real Gap...........................112.2.3.视频数据:来源广泛但直接应用困难...........................................123.数据采集的核心难点与发展趋势...............................................................143.1.真实数据匮乏、仿真迁移鸿沟与长尾泛化挑战是具身数据采集的核心难点............................................................................................................143.2.仿真/视频数据用于预训练与真实数据用于微调/强化学习的虚实结合方案或将成为主流,采集训练场、开放生态与评估体系的加速建设夯实行业数据基座.....................................................................................................154.具身智能本体厂商数据解决方案...............................................................174.1.国内主流本体厂商解决方案................................................................184.1.1.真实数据派代表性厂商.................................................................184.1.2.合成/仿真数据派代表性厂商.........................................................194.1.3.布局视频数据新方向的代表性厂商...............................................194.1.4.其他主流厂商................................................................................204.2.国外主流本体厂商解决方案................................................................224.2.1.真实数据派代表性厂商.................................................................224.2.2.布局视频数据新方向的代表性厂商...............................................224.2.3.其他主流厂商................................................................................235.具身数据产业全景.....................................................................................255.1.具身数据一级市场产业龙头................................................................255.2.具身数据二级市场相关公司................................................................276.风险提示....................................................................................................28 1.世界模型重塑智能基石,具身数据范式迈向全面变革 1.1.从“理解语言”进化到“理解世界和预测未来” 当前,人工智能正在从“理解语言”进入到“理解世界和预测未来”的全新阶段,世界模型(WorldModel)正是这场变革的核心。世界模型是AI系统对真实世界或特定环境如何运作的压缩表示与模拟器,其核心在于通过构建内部表征理解世界的动态规律(涵盖物理特性与空间属性)并预测未来变化、推理因果关系,为下游的决策制定与规划提供支撑。世界模型需具备两层核心能力:一是对物理规律的内建(理解世界),即形成关于重力、惯性及运动学等基本物理规律的内部认知;二则体现为时空操作能力(预测未来),即能精准推演物体在三维空间和时间维度中的连续变化,如车辆绕行、机器人抓取等动态过程。 数据来源:北京科技报、DeepTech深科技,国泰海通证券研究 世界模型为智能体解锁了多项重要能力,被视为通用人工智能发展的关键里程碑。首先,世界模型赋能前瞻性的规划与决策,使智能体能够通过内部模拟“想象”不同动作策略下未来状态的序列,从而制定最优方案。其次,世界模型能够助力学习效率提升,智能体通过在模拟经验中学习,显著降低对昂贵现实世界试错的依赖。同时,一个优秀的世界模型能够捕捉环境的普遍特性和底层动态,使智能体具备推理和应对未见情境的泛化与灵活性。最后,世界模型能够接收和处理比语言模型更丰富的原始信息,为AI提供更坚实的现实世界基础。世界模型是迈向通用人工智能的关键一步,赋予AI对世界运行机制的“直观理解”与“想象力”,奠定AI掌握人类常识、拥有推理与问题解决能力的基石。 世界模型与前代模型的本质区别,在于其能力根基从“数据相关性”驱动转向了“物理因果性”驱动。传统神经网络模型(RNN/CNN)局限于模式识别,而大语言模型实质是基于上下文的概率预测,智能驾驶最新前沿VLA模型则面临监督不足和数据规模定律存在边际的隐忧。相比之下,世界模型的核心突破在于,不再仅依赖数据驱动的模式匹配,而是构建了对物理规律的建模能力和对环境变化的内部模拟机制,使AI真正具备类人智能。 1.2.理论与实践发展并行,自2025年迎来应用落地元年 世界模型概念在2018年论文《WorldModels》中首次提出,并自2025年起迎来了集中性突破。 2018年,Ha & Schmidhuber发表《World Models》论文,首次用VAE + RNN+ Controller的端到端框架在Car Racing与Doom任务里证明:智能体完全可以在自学的“梦境”里预演未来,再迁移回真实环境,标志着“世界模型”概念正式被深度学习社区采纳; 2019年DeepMind发表的MuZero算法、2022年LeCun提出的JEPA表征模型、2023年关于大语言模型蕴含世界知识的研究等进一步夯实了世界模型的理论研究基础; 在产业需求和技术演进规律的驱动下,具有突破性意义的世界模型自2025年以来不断涌现: (1)2025年6月,Meta推出以视频为核心进行训练的V-JEPA2世界模型,该模型能够理解物体运动、预测未来状态,并实现零样本机器人规划; (2)2025