行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2025年具身智能行业研究：跨领域融合引领的新一轮智能革命

信息技术 2025-09-04 袁栩聪,张俊雅头豹研究院机构上传

具身智能行业综述

基本定义与关键特征
具身智能（Embodied Intelligence）是人工智能与机器人学交叉的前沿领域，核心在于通过物理实体（本体）与环境的动态交互实现智能行为。其三要素为：本体（物理载体，如机器人）、智能（算法、模型、决策能力）和环境（物理世界）。通过“感知-决策-行动-反馈”闭环系统，实现环境的实时感知、自主决策和自适应执行。

具身智能vs.离身智能
具身智能通过物理载体与环境交互，弥补了离身智能在动态适应性和跨领域泛化上的不足，是通向通用人工智能（AGI）的关键路径。具身智能模拟人类智能本质，通过身体与环境的互动学习、决策和进化，而传统AI缺乏“身体-环境”闭环考虑，难以实现跨领域泛化和复杂场景适应性。

发展历程
具身智能发展历经五个阶段：

哲学根基与早期理论框架（1940s）：梅洛-庞蒂提出“身体是认知的主体”，图灵提出具身智能概念。
机器人学与AI的早期融合（1980s）：包容架构提出，WABOT-1实现人形机器人行走。
强化学习、深度学习与机器人学深度融合（2000s）：Cog项目、波士顿动力Atlas突破。
生成式AI与具身智能深度耦合（2022）：ChatGPT推动认知-行动一体化，人形机器人成为新赛道。
标准化、泛化与伦理探索（2025）：多模态感知、具身大模型等技术标准化，跨领域协同成为主流。

技术体系
具身智能技术体系以“感知-决策-行动-反馈”四大模块构建闭环系统：

感知模块：通过多模态传感器采集环境数据，建立动态映射。
决策模块：基于感知信息进行任务规划、行为推理。
行动模块：将决策转化为物理动作，驱动机械结构。
反馈模块：通过传感器数据构建闭环学习机制，持续优化模型。
技术演进趋势由分模块化AI算法整合向基于大模型的统一框架转型。

核心技术层面

算法层面：负责任务定义、行为决策、物理世界特征理解，VLA（视觉-语言-动作）模型成为标准路径。
数据层面：真实数据采集成本高，合成数据质量待提升，数据标准化缺失。
硬件层面：以SoC芯片为基础，形成上层控制（决策）和下层控制（执行）的双层架构。

应用现状
2025年，具身智能商用化仍步履蹒跚，从实验室向场景落地遵循“从简单到复杂”、“先专后通”原则：优先工业场景，再延伸至家庭场景，最终迈向通用场景。当前应用领域包括特种医疗、养老、物流、工业等。

面临的挑战

技术挑战：缺乏自主意图生成能力，感知与行动存在“认知断层”，真实数据稀缺，软件生态割裂。
应用挑战：市场需求模糊，用户接受度低，硬件成本高、能源效率低，产品形态合理性受限，产业链条不完善。

国家与地方政策
国家层面政策呈现“技术攻关-场景应用-生态构建”递进逻辑，强调多技术融合和跨领域协同。地方层面政策覆盖技术研发、场景开放、生态建设，形成系统性产业支持体系。

跨领域融合引领的新一轮智能革命概览标签：具身智能、人形机器人 2025 Embodied Intelligence Industry 2025年における具身知能産業 1报告提供的任何内容（包括但不限于数据、文本、图表、图像等）均系头豹研究院独有的高度机密性文件（在报告中另行标明出处者除外）。未经头豹研究院事先书面许可，任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容，若有违反上述约定的行为发生，头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标，头豹研究院无任何前述名称之外的其他分支机构，也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。头豹研究院研究背景 01具身智能应用现状： 2025年，中国政府工作报告首次将具身智能纳入未来产业培育计划，标志着其成为推动新质生产力发展的核心赛道。而具身智能也正从实验室转向商业化探索，在各行业场景开启试点应用。 ◆2025年，全球具身智能已逐步从实验室走向场景落地，然而商用化进展低于预期，效率、成本、场景适配三大方面均让商用化面临各方面挑战。未来五年，具身智能在各场景的落地仍将遵循“从简单到复杂”、“先专后通”的原则。在2030年前，具身智能的核心在于工业专用场景，之后延伸至以“零伤亡”为安全底线的家庭场景，最终迈向通用场景。研究目标 •了解具身智能的基本概念及相关技术•了解2025年具身智能在各场景的商业化应用情况 02具身智能面临的主要挑战： ◆技术挑战方面，具身智能当下仍缺乏自主意图生成能力，且难以完成从环境理解到任务执行的完成闭环；真实数据量的不足、合成数据的质量低制约了模型训练与场景适配；软件生态割裂限制了系统的开发；本报告的关键问题 •具身智能的核心特征，以及与离身智能的差异•具身智能在各场景的商业化应用情况•具身智能的核心技术及面临的挑战 ◆应用挑战方面，市场需求的模糊和用户接受度低制约了具身智能的商业化进程；产品形态的合理性容易限制具身智能与场景的适配性；产业链条的不完善也阻碍了其产业的规模化发展和技术迭代。目录 ---------------------------05---------------------------06---------------------------07---------------------------08---------------------------09---------------------------10---------------------------11---------------------------12---------------------------14---------------------------15---------------------------16---------------------------17 ◆具身智能行业综述 •基本定义与关键特征•具身智能vs.离身智能•发展历程•技术体系•核心技术层面•应用现状•面临的挑战•国家层面相关政策•地方层面相关政策 ◆方法论与法律声明名词解释 AGI：通用人工智能，是一种能够模仿人类思维、决策并具备自我意识和自主行动能力的人工智能系统。与传统人工智能不同，AGI具有通用性，可适应多种复杂场景，通过自我学习和改进解决任何问题而无需人为干预。其目标是实现从“工具”向“生命”的转变，目前仍处于研究初级阶段，但在医疗、金融、交通等领域展现出潜在应用价值。 MPC：模型预测控制，是一种基于预测的多变量控制算法，通过动态模型预测系统未来状态，并在有限时域内求解优化问题以生成控制序列。其核心特点是滚动优化和约束处理，能够在化工、工业自动化等领域应对复杂系统的时变性和不确定性，同时考虑输入输出及状态变量的约束条件，广泛应用于自动驾驶和智能制造等场景。 RL：强化学习，是机器学习的重要分支，通过智能体与环境的交互试错学习最优策略。智能体根据执行动作后获得的奖励信号调整策略，以最大化长期累积奖励。其核心依赖价值函数评估状态-动作对的收益，并通过优化策略逐步逼近最优解。RL已在游戏（如AlphaGo）、机器人控制和推荐系统等领域取得显著成果。 SoC：系统级芯片，是将微处理器、存储器、模拟/数字IP核等关键组件集成于单一芯片的集成电路，面向特定用途的标准化产品。其高度集成特性广泛应用于智能手机、智能汽车和物联网设备，决定设备的核心性能（如运算速度、图形处理能力）。2025年全球市场规模预计达1864.8亿美元，亚太地区因5G和AI需求增长成为主要驱动力。 WBC：全身控制算法，是一种用于多自由度机器人运动控制的优化策略，其核心目标是通过协调机器人全身关节运动，实现动态平衡与复杂任务执行。该算法广泛应用于人形机器人、四足机器人等领域，常与模型预测控制（MPC）结合以提升抗干扰能力和运动精度。 Chapter1具身智能行业综述具身智能行业综述——基本定义与关键特征 •具身智能（EmbodiedIntelligence）是人工智能与机器人学交叉的前沿领域，其核心在于通过物理实体与环境的动态交互实现智能行为，“本体+环境+智能”是具身智能的核心三要素注：具身智能的物理载体不一定是人形机器人 ◼具身智能（Embodied Intelligence）是人工智能与机器人学交叉的前沿领域，其核心在于通过物理实体与环境的动态交互实现智能行为。它强调智能体的感知、行动与认知深度融合，使智能体能够像人类一样通过身体与环境互动，在试错中学习和进化。具身智能不仅依赖计算能力，更注重“身体”（物理载体）与环境的实时交互，形成“感知-决策-行动”的闭环系统。 ◼具身智能同时需要具备“本体+环境+智能”三要素。其中，本体是具身智能的物理载体，即硬件实体。它可以是机器人（如人形机器人、四足机器人、机械臂）、自动驾驶汽车等能够与物理世界交互的设备；智能是具身智能的核心，涵盖算法、模型和决策能力，它包括大模型（如视觉-语言-动作映射模型）、感知算法（图像识别、SLAM）、控制算法（运动规划、力控）等；环境是本体交互的物理世界，包括工业场景（工厂、仓库）、家庭场景（家居）、开放场景（户外、交通）等。本体通过感知模块获取环境信息→智能算法进行决策→本体执行动作影响环境→环境变化反馈至感知模块，形成“感知-决策-行动-反馈”循环。具身智能行业综述——具身智能vs.离身智能 •具身智能通过物理载体与环境的深度交互，弥补了离身智能在动态适应性和跨领域泛化上的不足，成为实现AGI的关键路径。未来，两者的结合将进一步推动人工智能从“虚拟智能”迈向“虚实共生”的新阶段 ◼具身智能（Embodied Intelligence）与离身智能（Disembodied Intelligence）的核心差异在于是否依赖物理载体与环境交互。具身智能强调智能体通过身体（如机器人）与物理世界的实时交互，结合感知、决策和行动形成闭环，从而适应动态环境；而离身智能则完全依赖虚拟环境中的数据和算法，无需物理实体，仅通过抽象计算完成任务。 ◼具身智能被誉为通向通用人工智能（AGI）的重要一步，因其模拟了人类智能的本质——通过身体与环境的互动学习、决策和进化。传统AI（如符号推理或深度学习）因缺乏对“身体-环境”闭环的考虑，难以实现跨领域泛化和复杂场景适应性，而具身智能通过多模态感知（视觉、触觉等）和实时反馈，使智能体具备类似人类的环境理解与自适应能力，为AGI提供了更接近生物智能的范式基础。行业研究| 2025/06 具身智能行业综述——发展历程 •自20世纪40年代开始，具身智能经历了从哲学思辨到认知科学的突破，行为主义革命与人形机器人的探索，多学科融合与算法框架构建，大模型赋能与场景化落地，以及当下标准化、泛化与伦理探索多个阶段具身智能发展历程具身智能的哲学根基与早期理论框架形成 •1945年，梅洛-庞蒂在《知觉现象学》中提出“身体是认知的主体”，批判主客二元论，强调身体在感知与世界互动中的核心作用。这一思想为具身认知理论奠定基础。•1950年，图灵在《计算机器与智能》中首次提出具身智能概念，但受限于技术条件未能深入。符号主义AI的局限性促使研究者转向物理交互范式。•1977年，吉布森（James J. Gibson）提出“可供性”理论，认为环境的意义由主体的身体能力定义，认知是身体与环境动态交互的结果. 1940 机器人学与AI的早期融合，具身智能方法论初步形成 •罗德尼・布鲁克斯（Rodney Brooks）在1986年提出“包容架构”，主张智能通过分层行为模块与环境直接交互实现，无需复杂内部模型。其团队开发的机器人如Genghis通过简单规则实现昆虫式运动，验证了“无表征智能”理论。•1980年代末，日本早稻田大学研发WABOT-1，首次实现全尺寸人形机器人双足行走，尽管行动能力仅相当于婴儿，但标志着具身智能硬件载体的初步成型。•1990年代，具身认知实验（如面部表情与情绪判断的关联）证实身体反应先于认知决策，为具身智能提供心理学依据。 1980 强化学习、深度学习与机器人学的深度融合，具身智能技术体系成型 •1994年，MIT启动的Cog项目尝试模拟人类婴儿的认知发展，通过摄像头、麦克风和机械臂实现感知-行动闭环，为具身智能研究提供平台。•2013年，波士顿动力的Atlas通过动态平衡算法突破，展示了具身智能在复杂物理环境中的适应性。•2016年，谷歌DeepMind的AlphaGo战胜了世界围棋冠军，其强化学习框架为机器人自主决策提供方法论。•2018年，OpenAI的Dactyl项目通过强化学习让机器人操作魔方，展示了具身学习的潜力。 2000 生成式人工智能与具身智能深度耦合，产业应用加速 •2022年，ChatGPT的爆发推动具身智能向“认知-行动”一体化演进。2024年，OpenAI与Figure合作推出的Figure 01结合大模型实现自然语言指令理解与精准操作。•2023年，中国工信部发布《人形机器人创新发展指导意见》，明确将人形机器人作为未来产业新赛道。•2024年，物流领域，中科源码推出全国首个物流场景具身智能机器人，实现货物分拣与自主导航；工业领域，宇树G1机器人通过SoFTA框架优化强化学习算法，实现行走与末端控制的协同。 2022 具身智能从单点突破转向生态化发展，跨领域协同成为主流 •2025年，中关村论坛发布“具身智能十五大重点方向”，涵盖多模态感知、具身大模型、群体智能等，推动技术标准化。•2025年，银河通用的Galbot G1通过具身大模型实现轮式人形机器人在零售场景的自主服务；星动纪元的STAR1支持跨机器人形态部署，同一模型可适配双臂机械臂与人形机器人。 2025 具身智能行业综述——技术体系 •具身智能的演进趋势正由分模块化的AI算法整合向基于大模型的统一技术框架转型，其技术体系以“感知-决策-行动-反馈”四大核心模块构建闭环系统架构 ◼当前，具身智能的演进趋势正由分模块化的AI算法整合向基于大模型的统一技术框架转型，在跨场景泛化能力和通用性方面取得显著进展。现阶段，具身智能正处于多路径协同演进的关键阶段，技术路线涵盖感知-决策融合、感知-决策-行动全链条闭环等方向，最终目标是构建具有通用智能的具身智能基础模型，实现复杂环境下的自主演化与能力跃迁。 ◼具身智能技术体系以“感知-决策-行动-反馈”四大核心模块构建闭环系统架构，通过实体与环境的动态交互，实现环境的实时感知建模、自主决策生成以及自适应执行能力。系统通过反馈机制持续优化模型参数，形成经验积累与自进化能力。具体而言，感知模块是具身智能的“信息采集和处理器”，负责通过多模态传感器（如视觉、听觉、触觉、激光雷达等）实时采集环境数据，并建立对外部世界的动态映射与理解；决策

点击免费查看完整报告

2025年具身智能行业研究：跨领域融合引领的新一轮智能革命

具身智能行业综述

你可能感兴趣

2025年具身智能行业研究跨领域融合引领的新一轮智能革命

计算机行业AI应用端行业研究：AI+办公软件，引领新一轮AIGC生产力革命

智能车研究框架智驾底层技术Transformer和Diffusion新一轮AI革命的基石20240906

裸视3D智能显示技术引领全球，带动全球显示领域革命

具身智能行业研究：银河通用完成由宁德时代等领投的11亿新一轮融资，小米YU7发布大定超预期

计算机行业对集成电路和软件行业最新政策的研究：引领科技革命和产业变革的关键力量

电子行业周报：Rokid灵伴科技引领国产智能眼镜迎来上新潮，受益于AI大模型与增强现实技术的深度融合

2024年中国AI Agent行业研究：智能体落地千行百业，引领智能化革命的新引擎（摘要版）

海外科技行业周报：AI大模型多元发展，引领新一轮科技革命

2024年中国AI Agent行业研究-智能体落地千行百业-引领智能化革命的新引擎（摘要版）