您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [艺恩]:全球具身数据市场白皮书 - 发现报告

全球具身数据市场白皮书

信息技术 2026-05-15 - 艺恩 机构上传
报告封面

INDUSTRY WHITE PAPER · EMBODIED DATA 全球具身数据市场白皮书 The Global Market for Embodied Al Data 当AI从「数字世界」走向「物理世界」,真实交互数据成为决定具身智能上限的稀缺生产要素。本白皮书系统呈现全球具身数据市场的结构、技术范式、公司格局与未来展望 艺恩数据·ENDATAwww.endata.com.cn 2026年版·第一版数据截至2026年5月 四个章节·读懂具身数据市场 01市场结构与趋势洞察Market&Trends03三口径市场规模·五个核心判断·数据稀缺性 02技术路线与数据范式Routes & Paradigms09四元结构·数据金字塔·模型×范式·旗舰 03 PART O1 . MARKET & TRENDS 市场结构与趋势洞察 三口径市场规模·五个核心判断·数据稀缺性 ENDATA艺恩数据·全球具身数据市场白皮书2026 全球·中国·美国三套权威口径 下列规模均指具身/人形机器人产业,但三家机构对「产业边界」定义不同(本体/含服务TAM/含非人形),口径不可直接相加。 全球口径:人形本体→整体TAM 高盛$38B/2035(仅本体)·摩根$5T(含供应链/服务)·花旗$7T/2050(含非人形AI机器人) 中国口径:用户支出/本体销售 IDC$77B/2030(用户支出)·CAGR94%·中金581亿元/2030 美国口径:人形市场分项 摩根士丹利美国分项$240B/2040·$1T/2050 口径说明三者均为具身/人形机器人产业规模,但定义不同:本体硬件<含供应链服务的TAM<含非人形的AI机器人整体,故不可横向相加。 数据,是具身智能的「卖铲人」 ~ 20,000× 具身数据与文本数据的可用量级差距 公开语料趋于枯竭,价值向高质量、真实交互、合规数据迁移 2026=具身数据规模化元年,数据成为产业卡点 2026具身数据五个核心判断 01数据稀缺具身Vs文本差距约20,000×,真实数据成卡点 范式分化真机遥操/便携采集/仿真合成/视频蒸馏四范式并行 中美双轨美国大额股权融资领先,中国整机量产与场景落地领先 04价值链上移数据层位居上游,毛利显著高于本体硬件 05大厂入场NVIDIA、特斯拉、京东等以数据飞轮构筑壁垒 中美具身产业双轨并进 数据层位居价值链上游 60-70% 资产化环节毛利,显著高于本体硬件 毛利率沿「采集一资产化」链条逐级递增掌握全链路闭环的数据公司主导利润分配价值向上游数据层迁移,本体硬件趋于薄利 PART O2 . ROUTES & PARADIGMS 技术路线与数据范式 四元结构·模型路线×数据范式·旗舰案例 ENDATA艺恩数据·全球具身数据市场白皮书2026 左脑·右脑·小脑·身体具身智能的四元拆解 左脑·任务规划语言/推理DeepSeek·豆包·通义干问 右脑·空间感知VLM/视觉Pl T World Labs 小脑·运动控制控制+RLBDAtlas·宇树G1 身体·整机本体灵巧手+触觉TeslaOptimus·优必选 行业类比头部=左脑(语言/规划,由 DeepSeek等通用大模型驱动)+右脑(视觉感知),颈背=小脑(运动控制),躯干=身体(本体),是建立在双系统架构上的类比框架 艺恩数据·全球具身数据市场白皮书2026 模型路线× 数据范式两个维度 「模型怎么学」与「数据怎么来」是两个独立维度-一前者决定智能架构,后者决定数据供给,二者不可混为一谈。 数据获取范式DATAPARADIGMS 模型架构路线MODELROUTES ①真机遥操VR/动捕操控真机最高保真·最贵 VLA视觉-语言-动作端到端TO·GO-1·Helix ②便携采集可穿戴/数据手套高保真?降本~10× World Model世界模型/物理一致性Cosmos·WorldLabs ③仿真合成物理引擎生成海量长尾·低成本 分层/双系统 快慢系统System1+2GR00TN1·Helix ①视频蒸馏 VLM / VLNGemini·银河导航感知/导航专用 互联网/第一人称视频近零成本·grounding难 框架:艺恩研究整理;参考NVIDIAGROoT「数据金字塔」、OpenX-Embodiment、各公司技术报告。 具身数据四层金字塔 具身数据按「保真度规模/成本」自然分层:越往上越真实稀缺,越往下越海量廉价;四范式恰好对应四层。 真机遥操 金字塔尖:VR/动捕操控真机,动作-本体天然对齐,质量最高但最贵、最难规模化 便携采集 可穿戴/数据手套第一人称采集,比遥操降本约10×,是质量与规模的平衡层 仿真合成 物理引擎+生成式批量造数,覆盖长尾场景,成本仅真机约1/100 人类/互联网视频 金字塔底座:海量、近零成本,但缺动作标签、物理grounding弱,需蒸馏 配比逻辑以底层海量数据预训练、用顶层稀缺真机数据精调,是当前主流的「数据金字塔」训练范式。 成本 × 保真度 2×2 矩阵 ②便携采集高保真×中成本 可穿戴/数据手套第一人称采集,比遥操降本约10倍。 VR/动捕操控真机采集,动作-本体天然对齐:完整设备超20万元。 代表·它石SenseHub·灵初手套·UMI 代表·智元数据工厂·帕西尼·诺亦腾·ALOHA ③仿真合成中保真×低成本 ④视频蒸馏低保真×近零成本互联网/第一人称视频蒸馏:海量供给,grounding难。 物理引擎+生成式覆盖长尾:成本仅真机约1/100。 代表·光轮·群核·跨维·NVIDIACosmos 代表·枢途·MetaEgo4D·1XWM 从分模块到世界模型·数据规模跃迁 2027+ 2022-2024 2025-2026 世界模型数据:千万一亿小时级可预测物理后果、长程规划Cosmos · World Labs 端到端 VLA数据:十万-百万小时级一个大模型吃下视觉+语言+动作:T0.5 - GR00T · GO-1 分模块数据:万小时级感知/规划/控制独立训练;ALOHA+ Diffusion Policy VLA 模型 三年十倍跃迁 3 年 10× VLA 任务成功率跃迁 真机+仿真+视频混合数据驱动泛化跨本体预训练+强化学习持续提效 光轮智能 Lightwheel·全球首个具身数据独角兽 FLAGSHIPCASE·2026 范式归类③仿真合成(主)+④视频蒸馏(辅) SimReady仿真合成+RoboFinals 评测基准 > $1B 创始团队谢晨(前NVIDIA/Cruise/蔚来仿真负责人) A++/A+++累计10亿元?2026-03?全球首个具身数据独角兽 >仿真数据生成成本仅真机约1/100World/Behavior/Eval三层架构+EgoSuite客户含NVIDIA、Figure、1X、字节、智元、银河?2025营收10×增长,2026Q1超2025全年 商业模式数据集授权+DaaS订阅+评测基准 产业意义验证「仿真合成」可规模化、可独立估值 PART O3 . DATA COMPANIES 具身数据公司全景 18家数据公司·四范式归类·融资榜单 ENDATA艺恩数据·全球具身数据市场白皮书2026 具身数据公司 四范式归类 界定口径本榜仅纳入能对应到四大数据范式的具身数据公司;通用Al数据标注公司(如Scale、Surge、海天瑞声)不在此列。 具身数据公司·真机遥操+便携采集 范式特征真机遥操保真最高、成本最高;便携采集以可穿戴/数据手套把成本降到遥操的约1/10,是高保真与规模化的平衡点。 具身数据公司·仿真合成+视频蒸馏 范式特征仿真合成以物理引擎+生成式覆盖长尾,成本仅真机约1/100;视频蒸馏从互联网/第一人称视频提取动作近零成本,grounding是关键。 具身数据公司全景·全球与世界模型 不计入纯数据公司ScaleAl、Surge、Appen、Labelbox、Mercor、海天瑞声等为通用Al数据标注公司,非具身数据专营,故不纳入本榜 世界模型交叉World Labs、GigaAl、LiberAl偏「世界模型/基础模型,与数据范式③④重叠,作交叉标注。 来源:TechCrunch/Bloomberg/Sacra(2026)。*标注「传闻/未确认」估值。 具身数据公司资本热度 四范式 护城河对比 仿真合成:规模与成本优,保真待补真机遥操:保真最高,规模化最难■视频蒸馏:成本最低,grounding是关键便携采集:保真与成本的平衡点 中美头部估值梯队 美国以大额股权融资领先,单体估值更高;中国整机公司密集突破百亿元,量产与场景落地领先。 中美数据策略对比 核心差异美国走「闭源飞轮」一一大厂自建数据闭环;中国走「开放+专业化分工一一独立具身数据公司沿四范式各自做深,更易形成数据交易市场。 04 PART O4 . MARKET OUTLOOK 全球具身数据市场展望 价值链与商业模式·中美格局·场景与未来 ENDATA艺恩数据·全球具身数据市场白皮书2026 从采集到资产化·六环节价值链 商业模式数据集授权+DaaS订阅+评测基准服务三种变现路径;资产化环节毛利最高(60-70%) 开放生态vs封闭飞轮 开放生态 封闭飞轮 OPENECOSYSTEM CLOSED LOOP NVIDIA·GRooT/Cosmos/Isaac开源+PhysicalAl Dataset Tesla·Optimus+FSD同源视觉数据飞轮(闭源) 智元·AgiBotWorld百万真机数据集(100万+轨迹) BostonDynamics·Atlas遥操飞轮(不外售)Figure·Helix 自采遥操(闭源)Google·GeminiRobotics+ALOHA自采 HuggingFace·LeRobot开放数据社区光轮·RoboFinals开放评测基准 核心区分是否对外开放数据,是大厂具身布局的关键分野一一开放生态做底座,封闭飞轮筑壁垒 来源:各公司技术报告与开源仓库、艺恩研究整理(2025-2026)。 具身数据开源数据集清单 开放底座开源数据集与评测基准是行业「公共底座」降低入门门槛、统一评测口径,与企业自建的封闭数据飞轮形成互补。 商业化场景·已落地与试点 已商业化 最早盈利 医疗康复 物流仓储 AgilityDigit在GXO·京东自营·Amazon$30-50亿/年 WandercraftFDA通过·傅利叶覆盖40+国$200亿/年 规模化 试点中 工业制造 商业服务 Figure在BMw·银河在宁德时代·特斯拉自用$50-80亿/年 银河便利店100+门店·智慧药店·餐饮$50-80亿/年 商业化场景·远期与规模化路径 最大想象 早期探索 特殊场景 家庭服务 1XNEO·Figure03·星动STAR·通用人形入户$1000亿+ 矿山巡检·应急救援·农业·国防·手术辅助$10-20亿/年 理性看待机遇与风险 RISKS·风险 OUTLOOK·展望 估值领先于商业化 数据规模化元年2026真机+仿真+视频混合数据爆发 多数出货流向科研/数采/展示,UBS警示泡沫风险 数据合规与版权跨境数据管制、第一人称隐私、版权清洁待规范 数据资产化DaaS订阅+数据交易加速 世界模型崛起WorldModel成为数据生成新引擎 Sim2Real鸿沟仿真保真度与真实物理差距仍是核心挑战 中国机遇场景丰富+工程化快+政策支持 具身数据采集/标注/评测标准尚在建设中 高质量、合规、垂直的数据弹药库 艺恩数据·AI时代中国垂类数据基础设施。以视频/图像/文本三模态,为大模型与具身智能提供VLA-Ready数据流 PRE-T