AI智能总结
➢数据是推动具身智能技术快速突破和落地应用的关键。借鉴自动驾驶汽车发展的路径,数据对于具身智能同样至关重要。优质的数据集能够驱动智能体感知与理解环境,能够加速具身智能模型的训练与部署,帮助机器人有效完成复杂任务。不同于大语言模型可以使用互联网海量信息作为训练数据,机器人所用的具身智能模型没有现成数据可以使用,需要投入大量时间和资源进行机器人操作实践或仿真模拟,以收集视觉、触觉、力觉、运动轨迹以及机器人本体状态等多源异构数据。符合通用标准、得到验证的数据集成为具身智能行业的刚需。当前具身智能本体形态多种多样,应用场景千差万别,对于具身智能训练数据的需求也更为多元。目前业内仍有部分数据集主要聚焦在特定机器人、特定场景和特定技能等方面,在整体通用性上有待提升。因此,构建高质量、多样化的感知数据集是不可或缺的基础工作,这些数据集不仅为算法训练提供了丰富的素材,也成为了评估具身性能的基准参考标准。➢具身智能数据按采集方式主要分为真实数据和仿真数据两大类。(1)真实数据:真实数据是智能体通过自身物理身体上的各类传感器(如摄像头、麦克风、触觉传感器等),在与真实物理环境进行交互过程中,实时采集获取的数据。真实数据主要来源有:机器人遥操(通过人工远程操控获取真实场景下的操作数据)、动作捕捉(记录人类在特定环境中的行为模式)。(2)仿真数据:借助计算机模拟技术,在虚拟环境中生成的、用于训练具身智能的数据。通过构建虚拟场景、物体和智能体,模拟智能体与虚拟环境的交互过程来产生数据。即利用仿真环境生成训练数据。真实数据和仿真数据两者是互补关系,未来训练将大量混合使用真实数据和高质量的合成数据。➢当前具身智能数据多为厂商自采集,存在丰富开源数据集。当前给人形机器人采集的高质量数据通常在现实世界中获取,采集方式主要有直接接触数据(真机数据)和间接接触数据(人工控制数据)两种。最理想的数据采集方式是通过人形机器人本体直接触达物理世界,让其准确理解真实环境。大规模真机数据的采集成本高昂,需要投入许多人力、物力和时间资源,数据标注和采集设备都存在门槛。目前市面上存在丰富的高质量具身智能开源数据集,如智元、谷歌、国地共建中心等均开源了丰富的具身智能数据集,具备丰富的演示数量、场景任务和动作技能等。➢机器人仿真数据主要依赖虚拟场景,而场景的合成方案可拆解成两个关键部分:场景生成(Gen)与模拟(Sim)。场景生成引擎(Gen)主要有两种技术路径:合成视频+3D重建:基于像素流驱动,先生成视频或图像,再重建为点云或mesh等非结构化3D数据,最终转为结构化语义模型。如Hillbot、群核科技、World labs(李飞飞)等。AIGC直接合成3D数据:利用图神经网络(GNN)、扩散模型(Diffusion)、注意力机制(Attention)等方法,直接合成结构化空间数据。如ATISS、LEGO-Net、DiffuScene、RoomFormer等代表模型,部分方案结合程序化生成技术,如Infinigen(CVPR 2024)。➢投资建议与相关标的:数据是推动具身智能技术快速突破和落地应用的关键,重点关注布局具身智能数据集的企业,相关标的:均胜电子(数据场)、海天瑞声(机器人数据集)、索辰科技(数据仿真)、华如科技(数据仿真)。➢风险提示:相关政策不及预期、各类型企业IT预算不及预期、市场竞争加剧。投资要点 研究成果 1、具身智能数据集基本概念3、国内外具身智能仿真数据集现状2、国内外具身智能真实数据集现状4、相关标的5、风险提示 具身智能数据集基本概念 ➢具身智能四个最关键的因子:算法、算力、机器人硬件、数据。➢算法层面:ChatGPT、Deepseek、通义千问等一系列领先的模型,在算法层面国内处于引领地位。➢算力层面:国外以英伟达、AMD为代表,国内以寒武纪、海光信息、地平线等公司为代表,正在快速突围。目前在训练阶段的算力瓶颈已经解决。➢机器人硬件层面:中国目前具有丰富的产业链。➢数据层面:目前仍是世界级难题,如何给机器人提供用来训练的可交互的数据是未来具身智能工作的重点之一。具身智能的世界级难题:数据数据来源:东吴证券研究所绘制机器人硬件 图:具身智能四大关键因子算法具身智能 算力数据 ➢数据是推动具身智能技术快速突破和落地应用的关键。借鉴自动驾驶汽车发展的路径,数据对于具身智能同样至关重要。优质的数据集能够驱动智能体感知与理解环境,能够加速具身智能模型的训练与部署,帮助机器人有效完成复杂任务。➢目前高质量、多样化的数据集仍旧稀缺。不同于大语言模型可以使用互联网海量信息作为训练数据,机器人所用的具身智能模型没有现成数据可以使用,需要投入大量时间和资源进行机器人操作实践或仿真模拟,以收集视觉、触觉、力觉、运动轨迹以及机器人本体状态等多源异构数据。符合通用标准、得到验证的数据集成为具身智能行业的刚需。当前具身智能本体形态多种多样,应用场景千差万别,对于具身智能训练数据的需求也更为多元。目前业内仍有部分数据集主要聚焦在特定机器人、特定场景和特定技能等方面,在整体通用性上有待提升。因此,构建高质量、多样化的感知数据集是不可或缺的基础工作,这些数据集不仅为算法训练提供了丰富的素材,也成为了评估具身性能的基准参考标准。➢数据集的标准和有效也同样重要。作为训练具身智能大模型的重要原料,数据集采集是否符合标准、在训练上是否“能用”、“好用”,是否能更有效支持模型泛化,已经成为机器人变“聪明”的关键。具身智能浪潮来袭,数据供给瓶颈亟待突破数据来源:生境科技,东吴证券研究所图:具身智能大脑整体框架 ➢数据采集的关键价值包括:①促进通用智能形成:具身数据支持机器人在复杂环境中实现通用任务能力,是类人智能演化的基础;②增强环境理解能力:比起图像识别等静态数据,具身数据可捕捉动态交互、物体变化、力学反馈等多维信号;③支持任务迁移与泛化:不同场景中的具身体验数据,有助于提升模型从特定任务向通用任务的迁移能力;④提升实时决策能力:通过感知-理解-反馈数据闭环,机器人可实现即时调整与精准操作。数据采集的价值和难点数据来源:机器人产业应用,东吴证券研究所 图:具身智能大脑整体框架 ➢具身智能数据按采集方式主要分为真实数据和仿真数据两大类。(1)真实数据:真实数据是智能体通过自身物理身体上的各类传感器(如摄像头、麦克风、触觉传感器等),在与真实物理环境进行交互过程中,实时采集获取的数据。真实数据主要来源有:机器人遥操(通过人工远程操控获取真实场景下的操作数据)、动作捕捉(记录人类在特定环境中的行为模式)。(2)仿真数据:借助计算机模拟技术,在虚拟环境中生成的、用于训练具身智能的数据。通过构建虚拟场景、物体和智能体,模拟智能体与虚拟环境的交互过程来产生数据。即利用仿真环境生成训练数据。➢两者关系:仿真数据不会取代真实数据,两者是互补关系。未来训练将大量混合使用真实数据和高质量的合成数据。➢仿真数据的优势是低成本、高效率、可控性强、多样性高,缺点是真实性始终有限,无法完美还原物流世界。真实数据的作用是保证最终模型在真实世界中的可靠性和泛化能力。➢短期来看,仿真数据用于解决简单任务,助力具身智能实现0到1的突破。尤其针对跑步、跳跃或者跳舞等简单的运动任务,仿真数据已经足够支撑。反正数据的优势在于获取快、成本低且数据量大。➢长期看,真实数据对处理复杂任务不可或缺,推动具身智能实现1到N的深度应用。机器人数据分为真实数据和仿真数据两类数据来源:中国信通院,东吴证券研究所数据类别真实数据仿真数据图:真实数据和仿真数据优缺点 各自优缺点优点:具备高度还原性和真实性缺点:成本高、效率低,且难以控制变量优点:具备高效、可控、易扩展等优势,能快速生成大规模、多模态的数据,适合模型的预训练阶段缺点:可能存在“虚实差距”,通常需与现实数据配合使用以提升模型的泛化能力 ➢具身智能数据质量把控是重要一环。具身智能开发和验证所需的数据集包括任务语言描述、场景语义、3D空间、本体状态、运动轨迹、视触感知等多模态、强异构的数据,涉及不同的数据采集设备和数据获取方式,且需要经过多阶段的数据处理,因此对数据质量的把控是很重要的一个环节。➢中国信通院人工智能研究所依托中国人工智能产业发展联盟(AIIA)具身智能工作组,并联合行业34家单位共同编制了《具身智能数据集质量要求及评价方法》,以推动大规模、高质量的具身智能数据集建设,助力具身智能技术创新和产业生态发展。➢首个具身智能数据采集标准发布。2024年11月,国家地方共建具身智能机器人创新中心牵头立项《人工智能具身智能数据采集规范》工信部行业标准,这是国内第一个具身智能数据集的行业标准,规范了具身智能数据集采集的格式,使不同公司采集的数据可以互相共享开源,能够加速模型“涌现”。创新中心未来还将设计一系列数据集标准,为模型泛化保驾护航。➢2024年12月,创新中心正式发布了《具身智能标准化研究报告》、《具身智能数据集及评测研究报告》(即RoboMIND)两项重磅报告,为行业的标准化与数据集建设提供指引。具身智能数据集采集标准的建立将进一步明确具身智能数据要求及质量等,从而加速具身智能行业的良性发展。数据质量:首个具身智能数据集标准发布数据来源:群核科技,东吴证券研究所图:具身智能数据集质量要求及评价框架 国内外具身智能真实数据集现状 具身智能数据集发布机构AgiBot World智元机器人,上海人工智能实验室Open X-EmbodimentGoogle Deepmind等21所机构DROIDStanford,UC Berkeley等13所机构RT-1Google DeepmindBridgeData V2UC Berkeley,Stanford,GoogleDeepMnd,CMURoboSetCMU,MetaBC-ZGoogle、UC Berkeley、StanfordMIMECMUARIO鹏城实验室、南方科技大学、中山大学RoboMIND国地中心、北京大学、智源研究院RH20T上海交通大学数据来源:整数智能,东吴证券研究所丰富的高质量具身智能数据集➢当前具身智能机器人数据多为厂商自采集。当前给人形机器人采集的高质量数据通常在现实世界中获取,采集方式主要有直接接触数据(真机数据)和间接接触数据(人工控制数据)两种。最理想的数据采集方式是通过人形机器人本体直接触达物理世界,让其准确理解真实环境。但是,大规模真机数据的采集成本高昂,需要投入许多人力、物力和时间资源,数据标注和采集设备都存在门槛。与此同时,物理世界的运行规律错综复杂,数据的采集往往难以全面反映所有相关的物理现象与知识。➢目前市面上存在丰富的高质量具身智能数据集,具备丰富的演示数量、场景任务和动作技能等。 发布时间演示数量场景任务动作技能采集方式2024.12100+万100+种数百个遥操作双臂机器人和灵巧手2023.10140万311种527个单臂、双臂、四足等22种形态机器人2024.037.6万564种86个遥操作单臂2022.1213.5万2种2个遥操作单臂2023.096万24种13个遥操作单臂及脚本编程动作2023.099.85万38种12个遥操作单机械臂及脚本编程动作2022.022.6万1种12个遥操作单机械臂2018.1082601种20个遥操作单机械臂2024.08300万258种345个遥操作主从双臂机器人2024.125.5万279种36个遥操作单臂、双臂、人形机器人和灵巧手2023.0711万7种140个遥操作单臂图:部分开源高质量数据集 ➢智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,正式开源Agibot World项目。AgiBotWorld是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。AgiBot World数据集中涵盖的场景具备多样化和多元化特点,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等复杂动作,几乎涵盖了人类日常生活所需的绝大多数场景。➢AgiBot World包含来自