跨领域融合引领的新一轮智能革命 概览标签:具身智能、人形机器人 2025 Embodied Intelligence Industry 2025年における具身知能産業 1报告提供的任何内容(包括但不限于数据、文本、图表、图像等)均系头豹研究院独有的高度机密性文件(在报告中另行标明出处者除外)。未经头豹研究院事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标,头豹研究院无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。 头豹研究院 研究背景 01具身智能应用现状: 2025年,中国政府工作报告首次将具身智能纳入未来产业培育计划,标志着其成为推动新质生产力发展的核心赛道。而具身智能也正从实验室转向商业化探索,在各行业场景开启试点应用。 ◆2025年,全球具身智能已逐步从实验室走向场景落地,然而商用化进展低于预期,效率、成本、场景适配三大方面均让商用化面临各方面挑战。未来五年,具身智能在各场景的落地仍将遵循“从简单到复杂”、“先专后通”的原则。在2030年前,具身智能的核心在于工业专用场景,之后延伸至以“零伤亡”为安全底线的家庭场景,最终迈向通用场景。 研究目标 •了解具身智能的基本概念及相关技术•了解2025年具身智能在各场景的商业化应用情况 02具身智能面临的主要挑战: ◆技术挑战方面,具身智能当下仍缺乏自主意图生成能力,且难以完成从环境理解到任务执行的完成闭环;真实数据量的不足、合成数据的质量低制约了模型训练与场景适配;软件生态割裂限制了系统的开发; 本报告的关键问题 •具身智能的核心特征,以及与离身智能的差异•具身智能在各场景的商业化应用情况•具身智能的核心技术及面临的挑战 ◆应用挑战方面,市场需求的模糊和用户接受度低制约了具身智能的商业化进程;产品形态的合理性容易限制具身智能与场景的适配性;产业链条的不完善也阻碍了其产业的规模化发展和技术迭代。 目录 ---------------------------05---------------------------06---------------------------07---------------------------08---------------------------09---------------------------10---------------------------11---------------------------12---------------------------14---------------------------15---------------------------16---------------------------17 ◆具身智能行业综述 •基本定义与关键特征•具身智能vs.离身智能•发展历程•技术体系•核心技术层面•应用现状•面临的挑战•国家层面相关政策•地方层面相关政策 ◆方法论与法律声明 名词解释 AGI:通用人工智能,是一种能够模仿人类思维、决策并具备自我意识和自主行动能力的人工智能系统。与传统人工智能不同,AGI具有通用性,可适应多种复杂场景,通过自我学习和改进解决任何问题而无需人为干预。其目标是实现从“工具”向“生命”的转变,目前仍处于研究初级阶段,但在医疗、金融、交通等领域展现出潜在应用价值。 MPC:模型预测控制,是一种基于预测的多变量控制算法,通过动态模型预测系统未来状态,并在有限时域内求解优化问题以生成控制序列。其核心特点是滚动优化和约束处理,能够在化工、工业自动化等领域应对复杂系统的时变性和不确定性,同时考虑输入输出及状态变量的约束条件,广泛应用于自动驾驶和智能制造等场景。 RL:强化学习,是机器学习的重要分支,通过智能体与环境的交互试错学习最优策略。智能体根据执行动作后获得的奖励信号调整策略,以最大化长期累积奖励。其核心依赖价值函数评估状态-动作对的收益,并通过优化策略逐步逼近最优解。RL已在游戏(如AlphaGo)、机器人控制和推荐系统等领域取得显著成果。 SoC:系统级芯片,是将微处理器、存储器、模拟/数字IP核等关键组件集成于单一芯片的集成电路,面向特定用途的标准化产品。其高度集成特性广泛应用于智能手机、智能汽车和物联网设备,决定设备的核心性能(如运算速度、图形处理能力)。2025年全球市场规模预计达1864.8亿美元,亚太地区因5G和AI需求增长成为主要驱动力。 WBC:全身控制算法,是一种用于多自由度机器人运动控制的优化策略,其核心目标是通过协调机器人全身关节运动,实现动态平衡与复杂任务执行。该算法广泛应用于人形机器人、四足机器人等领域,常与模型预测控制(MPC)结合以提升抗干扰能力和运动精度。 Chapter1具身智能行业综述 具身智能行业综述——基本定义与关键特征 •具身智能(EmbodiedIntelligence)是人工智能与机器人学交叉的前沿领域,其核心在于通过物理实体与环境的动态交互实现智能行为,“本体+环境+智能”是具身智能的核心三要素 注:具身智能的物理载体不一定是人形机器人 ◼具身智能(Embodied Intelligence)是人工智能与机器人学交叉的前沿领域,其核心在于通过物理实体与环境的动态交互实现智能行为。它强调智能体的感知、行动与认知深度融合,使智能体能够像人类一样通过身体与环境互动,在试错中学习和进化。具身智能不仅依赖计算能力,更注重“身体”(物理载体)与环境的实时交互,形成“感知-决策-行动”的闭环系统。 ◼具身智能同时需要具备“本体+环境+智能”三要素。其中,本体是具身智能的物理载体,即硬件实体。它可以是机器人(如人形机器人、四足机器人、机械臂)、自动驾驶汽车等能够与物理世界交互的设备;智能是具身智能的核心,涵盖算法、模型和决策能力,它包括大模型(如视觉-语言-动作映射模型)、感知算法(图像识别、SLAM)、控制算法(运动规划、力控)等;环境是本体交互的物理世界,包括工业场景(工厂、仓库)、家庭场景(家居)、开放场景(户外、交通)等。本体通过感知模块获取环境信息→智能算法进行决策→本体执行动作影响环境→环境变化反馈至感知模块,形成“感知-决策-行动-反馈”循环。 具身智能行业综述——具身智能vs.离身智能 •具身智能通过物理载体与环境的深度交互,弥补了离身智能在动态适应性和跨领域泛化上的不足,成为实现AGI的关键路径。未来,两者的结合将进一步推动人工智能从“虚拟智能”迈向“虚实共生”的新阶段 ◼具身智能(Embodied Intelligence)与离身智能(Disembodied Intelligence)的核心差异在于是否依赖物理载体与环境交互。具身智能强调智能体通过身体(如机器人)与物理世界的实时交互,结合感知、决策和行动形成闭环,从而适应动态环境;而离身智能则完全依赖虚拟环境中的数据和算法,无需物理实体,仅通过抽象计算完成任务。 ◼具身智能被誉为通向通用人工智能(AGI)的重要一步,因其模拟了人类智能的本质——通过身体与环境的互动学习、决策和进化。传统AI(如符号推理或深度学习)因缺乏对“身体-环境”闭环的考虑,难以实现跨领域泛化和复杂场景适应性,而具身智能通过多模态感知(视觉、触觉等)和实时反馈,使智能体具备类似人类的环境理解与自适应能力,为AGI提供了更接近生物智能的范式基础。 行业研究| 2025/06 具身智能行业综述——发展历程 •自20世纪40年代开始,具身智能经历了从哲学思辨到认知科学的突破,行为主义革命与人形机器人的探索,多学科融合与算法框架构建,大模型赋能与场景化落地,以及当下标准化、泛化与伦理探索多个阶段 具身智能发展历程 具身智能的哲学根基与早期理论框架形成 •1945年,梅洛-庞蒂在《知觉现象学》中提出“身体是认知的主体”,批判主客二元论,强调身体在感知与世界互动中的核心作用。这一思想为具身认知理论奠定基础。•1950年,图灵在《计算机器与智能》中首次提出具身智能概念,但受限于技术条件未能深入。符号主义AI的局限性促使研究者转向物理交互范式。•1977年,吉布森(James J. Gibson)提出“可供性”理论,认为环境的意义由主体的身体能力定义,认知是身体与环境动态交互的结果. 1940 机器人学与AI的早期融合,具身智能方法论初步形成 •罗德尼・布鲁克斯(Rodney Brooks)在1986年提出“包容架构”,主张智能通过分层行为模块与环境直接交互实现,无需复杂内部模型。其团队开发的机器人如Genghis通过简单规则实现昆虫式运动,验证了“无表征智能”理论。•1980年代末,日本早稻田大学研发WABOT-1,首次实现全尺寸人形机器人双足行走,尽管行动能力仅相当于婴儿,但标志着具身智能硬件载体的初步成型。•1990年代,具身认知实验(如面部表情与情绪判断的关联)证实身体反应先于认知决策,为具身智能提供心理学依据。 1980 强化学习、深度学习与机器人学的深度融合,具身智能技术体系成型 •1994年,MIT启动的Cog项目尝试模拟人类婴儿的认知发展,通过摄像头、麦克风和机械臂实现感知-行动闭环,为具身智能研究提供平台。•2013年,波士顿动力的Atlas通过动态平衡算法突破,展示了具身智能在复杂物理环境中的适应性。•2016年,谷歌DeepMind的AlphaGo战胜了世界围棋冠军,其强化学习框架为机器人自主决策提供方法论。•2018年,OpenAI的Dactyl项目通过强化学习让机器人操作魔方,展示了具身学习的潜力。 2000 生成式人工智能与具身智能深度耦合,产业应用加速 •2022年,ChatGPT的爆发推动具身智能向“认知-行动”一体化演进。2024年,OpenAI与Figure合作推出的Figure 01结合大模型实现自然语言指令理解与精准操作。•2023年,中国工信部发布《人形机器人创新发展指导意见》,明确将人形机器人作为未来产业新赛道。•2024年,物流领域,中科源码推出全国首个物流场景具身智能机器人,实现货物分拣与自主导航;工业领域,宇树G1机器人通过SoFTA框架优化强化学习算法,实现行走与末端控制的协同。 2022 具身智能从单点突破转向生态化发展,跨领域协同成为主流 •2025年,中关村论坛发布“具身智能十五大重点方向”,涵盖多模态感知、具身大模型、群体智能等,推动技术标准化。•2025年,银河通用的Galbot G1通过具身大模型实现轮式人形机器人在零售场景的自主服务;星动纪元的STAR1支持跨机器人形态部署,同一模型可适配双臂机械臂与人形机器人。 2025 具身智能行业综述——技术体系 •具身智能的演进趋势正由分模块化的AI算法整合向基于大模型的统一技术框架转型,其技术体系以“感知-决策-行动-反馈”四大核心模块构建闭环系统架构 ◼当前,具身智能的演进趋势正由分模块化的AI算法整合向基于大模型的统一技术框架转型,在跨场景泛化能力和通用性方面取得显著进展。现阶段,具身智能正处于多路径协同演进的关键阶段,技术路线涵盖感知-决策融合、感知-决策-行动全链条闭环等方向,最终目标是构建具有通用智能的具身智能基础模型,实现复杂环境下的自主演化与能力跃迁。 ◼具身智能技术体系以“感知-决策-行动-反馈”四大核心模块构建闭环系统架构,通过实体与环境的动态交互,实现环境的实时感知建模、自主决策生成以及自适应执行能力。系统通过反馈机制持续优化模型参数,形成经验积累与自进化能力。具体而言,感知模块是具身智能的“信息采集和处理器”,负责通过多模态传感器(如视觉、听觉、触觉、激光雷达等)实时采集环境数据,并建立对外部世界的动态映射与理解;决策