AI智能总结
产业研究中心 摘要:相比于传统机器人控制,具身智能的核心转变是实现了自主决策 具身智能本质特点是具备理解物理世界并与之交互的能力。相比于传统机器人控制,具身智能的核心转变是实现了自主决策,让机器人从根据指令执行特定任务的机器进化为持续与世界交互的智能体,因此大模型与数据是人形机器人最核心的环节。 鲍雁辛(分析师)0755-23976830baoyanxin@gtht.com登记编号S0880513070005 从理解到执行,AI算法向具身智能演进 具身智能本质特点是能够与物理世界交互。具身智能与非具身模型的本质区别,在于是否具备理解物理世界并与之交互的能力。大语言模型虽然能实现复杂信息理解,但局限于感知环节,具身大模型则需要构建完整的"感知、决策、执行"链路,实现对物理世界的精准干预。 张涵(研究助理)0755-23976666zhanghan5@gtht.com登记编号S0880124070046 具身智能实现机器人控制从指令执行到自主决策的转变。传统机器人系统控制本质是功能组件的机械协同,而具身智能则构建了一个能在物理环境中自主存续的完整行为个体。具身智能大模型让机器人从执行特定任务的机器,进化为持续与世界交互的智能体。 大模型:具身智能的引擎 显示行业深度:微显示技术的产业化进程与应用前景——先进制造系列研究(二)2025.09.12具身智能新形态,矿山无人车迈向规模化时代——具身智能产业深度研究(三)2025.09.04工业机器人深度:全球趋势、中国路径与未来战略——先进制造系列研究(一)2025.09.01人形机器人和智能汽车互促发展——具身智能产业深度研究(二)2025.08.18轮式形态将先于双足机器人实现商业化落地——具身智能产业深度研究(一)2025.08.11 模型架构方面,主要有端到端和分层端到端两类路线。端到端大模型直接构建“输入(视觉+语言)→输出(动作控制)”映射,不拆分中间环节,典型代表是谷歌DeepMind的RT模型。分层端到端将具身智能系统拆分为多个专用模块,平衡了性能与实用性,数据需求合理化,泛化性能增强,成为目前的主流选择,典型代表包括Figure的Helix模型和银河通用的三层大模型系统等。 分层端到端由基础大模型、决策大模型、执行大模型组成。第一层基础大模型为感知与理解中枢,通过整合语言指令与视觉信号实现对复杂场景的语义解析和空间推理;第二层决策大模型为任务拆解与规划中枢,将复杂任务拆解为可执行的子任务序列,并调度下一层进行执行,技术路径从基于LLM的规则拆解向RL驱动的自适应规划演进;第三层操作大模型为硬件执行中枢,将上一层生成的抽象指令转化为控制硬件的精确信号,技术路径从MPC+WBC向RL+仿真演进。 数据:具身智能的燃料 真实采集数据:可靠性高,但面临规模化瓶颈。采集方法主要包括远程操作与动作捕捉,保留物理世界真实性与闭环反馈,但成本高、规模化难。 仿真合成数据:解决数据稀缺的经济高效方案。通过计算机仿真技术在虚拟环境中生成交互数据,可快速批量化生成,但存在虚实差距等问题。 行业实践:真实与合成数据协同应用。英伟达从少量人类示范数据中生成大规模合成数据,将合成数据与真实数据相结合后性能提升了40%;特斯拉以真实数据为主,主要通过动作捕捉技术采集数据,以仿真合成数据为辅,构建虚拟仿真场景以训练算法应对不同环境的性能;银河通用则采用99%的合成数据和1%的真实数据,高效完成pick&place等任务。 风险提示:大模型技术落地不及预期;数据供给与质量不及预期;动态环境适应与复杂任务执行不及预期。 目录 1.核心观点:大模型为引擎,数据为燃料,构筑人形机器人最核心环节.......32.从理解到执行,AI算法向具身智能演进.........................................................42.1.具身智能本质特点是能够与物理世界交互................................................42.2.具身智能实现机器人控制从指令执行到自主决策的转变..........................63.大模型:具身智能的引擎...................................................................................73.1.模型架构方面,主要有端到端和分层端到端两类路线............................73.2.分层端到端由基础大模型、决策大模型、执行大模型组成..................114.数据:具身智能的燃料.....................................................................................174.1.真实采集数据:可靠性高,但面临规模化瓶颈......................................184.2.仿真合成数据:解决数据稀缺的经济高效方案......................................204.3.行业实践:真实与合成数据协同应用......................................................235.风险提示............................................................................................................26 1.核心观点:大模型为引擎,数据为燃料,构筑人形机器人最核心环节 具身智能本质特点是具备理解物理世界并与之交互的能力,实现机器人控制从指令执行到自主决策的转变。非具身模型如大语言模型LLM依赖静态数据,专注文本/图像等信息的理解与生成;具身大模型需整合机器人本体、场景依赖数据、多模态算法等要素,目标是实现与物理环境的交互,构建“感知-决策-执行”闭环。相比于传统机器人控制,具身智能的核心转变是实现了自主决策,让机器人从根据指令执行特定任务的机器进化为持续与世界交互的智能体,因此大模型与数据是人形机器人最核心的环节。 大模型是具身智能的引擎,分层端到端架构为当前主流技术路线。具身大模型几种技术路线中,端到端架构直接构建“视觉+语言输入->动作输出”链路,系统简洁但需万亿级长任务数据,泛化性与推理速度受限;分层端到端架构可拆分为基础大模型、决策大模型与操作大模型三个层次,数据需求相对较低、泛化性强且可模块化升级,成为当前主流技术路线。分层端到端架构中,第一层基础大模型为感知与理解中枢,通过整合语言指令与视觉信号实现对复杂场景的语义解析和空间推理;第二层决策大模型为任务拆解与规划中枢,将复杂任务拆解为可执行的子任务序列,并调度下一层进行执行,技术发展路径从基于LLM的规则拆解向强化学习RL驱动的自适应规划演进;第三层操作大模型为硬件执行中枢,将上一层生成的抽象指令转化为控制硬件的精确信号,技术路径正从MPC+WBC向RL+仿真演进。 数据是具身智能的燃料,真实采集数据与仿真合成数据协同应用。真实数据保留物理世界真实性与闭环反馈,但成本高、规模化难;合成数据可快速批量化生成,但仍然存在虚实差距(Sim2RealGap)等问题。行业实践中多采用真实数据与合成数据协同应用的方式,英伟达从少量人类示范数据中生成大规模合成数据,仅用11小时就生成了相当于9个月的人类演示数据,将合成数据与真实数据相结合训练后性能提升了40%;特斯拉以真实数据为主,主要通过动作捕捉技术采集数据,以仿真合成数据为辅,构建虚拟仿真场景以训练算法应对不同环境的性能;银河通用则采用99%的合成数据和1%的真实数据,高效完成pick&place等任务。 数据来源:中国机器人网,国泰海通证券研究 2.从理解到执行,AI算法向具身智能演进 2.1.具身智能本质特点是能够与物理世界交互 具身智能与非具身模型的本质区别,在于是否具备理解物理世界并与之交互的能力。对于非具身模型,以大语言模型LLM为例,仅依赖输入静态数据与算法,专注于文本生成和理解任务(如翻译、问答),通过海量语料库训练实现通用语言能力。而具身智能大模型需整合机器人本体、场景依赖数据、多模态算法等要素,目标是实现与物理环境的交互(感知、决策、执行),强调实时性和动作成功率。 具身智能可动态规划工作流,根据环境反馈实时调整行动。大语言模型虽然能实现复杂的信息层面理解,但局限于“感知、决策、执行”的第一环节,无法生成控制物理世界的动作指令。具身大模型则需要构建完整的"认知、决策、行动"链路,实现对物理世界的精准干预。具身智能的核心突破正在于打通环境感知、任务规划与硬件驱动执行三个关键层面,形成与物理世界交互的闭环能力。 数据来源:王文晟等《基于大模型的具身智能系统综述》 感知层面,具身大模型的环境感知突破了静态识别的局限。非具身大模型仅处理孤立图像与文本,缺乏时空连续性和物理感知,而具身智能系统通过多模态融合实现动态建模。特斯拉Optimus采用纯视觉方案,通过多个高分辨率摄像头构建环境感知网络;国内自动驾驶与机器人企业多采用“激光雷达+视觉融合”方案,实现融合感知。两种路线虽各有侧重,但共同目标是实现环境的动态建模,这种时空连续的感知能力为物理交互奠定基础。 决策层面,具身大模型实现了从规则拆解到自适应任务规划的进化。传统模型对任务步骤拆解仅基于文本知识,缺少物理约束,而具身系统采用强化学习与大语言模型融合的架构。Figure01通过模仿学习,10小时内学会煮咖啡并自主调整胶囊位置;谷歌RT-2借助思维链推理,能解决需要物理常识的问题。 执行层面,硬件驱动是具身大模型的独特优势。非具身大模型不具备硬件控制能力,而具身系统通过端到端架构实现精准物理控制。Figure02的16自由度灵巧手运动范围接近人类手的指部灵活性,物流分拣中通过触觉反馈调整抓握力;特斯拉Optimus基于FSD系统的端到端神经网络,将图像输入映射为关节控制信号,在电池分拣时能自主纠正倾倒的积木。 2.2.具身智能实现机器人控制从指令执行到自主决策的转变 相比于传统机器人控制,具身智能的核心转变是实现了自主决策。传统机器人系统控制本质是功能组件的机械协同,而具身智能则构建了一个能在物理环境中自主存续的完整行为个体。具身智能大模型让机器人从执行特定任务的机器,进化为持续与世界交互的智能体。 与传统机器人的指令执行模式不同,具身智能系统通过预测性世界建模实现前瞻式决策。上海AI实验室开源的AETHER模型展示了这一能力,通过“重建—预测—规划”一体化框架,在真实环境中完成毫米级4D动态重建,并基于相机轨迹预测未来场景变化。Meta的Embodied AI代理通过这种预测性世界模型实现了零样本泛化,使智能体能够在未见过的环境中进行有效导航和交互。 数据来源:上海人工智能实验室 模型泛化性能、响应速率与训练数据规模等,是当前端到端具身大模型面临的核心挑战。当前阶段的具身智能大脑已具备认知、推理与规划能力,且其小脑层面的机器人技能任务训练,亦依托深度学习技术实现驱动。伴随应用场景的持续拓展与数据量的积累,若干特定领域小模型将逐步泛化演进为通用操作大模型,并最终完成与上层模型的深度融合。 数据来源:甲子光年 3.大模型:具身智能的引擎 3.1.模型架构方面,主要有端到端和分层端到端两类路线 当前具身大模型的技术路线呈现多元发展态势,主要分为端到端和分层端到端两类。(1)端到端大模型,以谷歌的RT模型为代表;(2)基于LLM或VLM的分层端到端大模型,大多数的机器人公司都采取了这个方案,典型代表有:TeslaFSD,FigureAI,星海图,银河通用,智元机器人等。 端到端大模型直接构建“输入(视觉+语言)→输出(动作控制)