您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [西安交通大学人工智能与机器人研究所]:具身智能发展趋势与展望 - 发现报告

具身智能发展趋势与展望

报告封面

郑南宁*,杨勐,姜维周,孙宏滨,丁宁 (西安交通大学人工智能与机器人研究所,西安710049) 摘要:人工智能的发展目标是使机器像人类一样思维和行动,不仅能求解复杂问题,更重要的是能在一个复杂、动态、不确定的物理世界中进行交互。具身智能强调智能体通过物理载体与环境的动态交互,在感知、决策与行动中不断学习和进化,从而突破传统静态数据训练模型的局限,展现出更强的环境适应性与泛化能力,已成为实现人工智能发展目标的关键路径之一。本文深入探讨了具身智能的概念、内涵、计算框架与系统实现,在此基础上进一步梳理了具身智能的发展现状、演进趋势与面临的挑战。同时,特别指出,生成式人工智能,尤其是大语言模型、多模态大模型以及正在演进的“信息‒物理‒认知”三域融合大模型等技术在加速具身智能演进中的关键作用。面对全球人工智能竞争日益加剧的态势,总结与分析了我国在具身智能领域发展取得的进展和面临的风险,并提出了我国应重点布局的研究方向和针对性的对策建议,助力我国在全球具身智能竞赛中占据领先地位。 关键词:具身智能;人工智能;生成式人工智能;环境交互中图分类号:TP18;TP24文献标识码:A Embodied Intelligence:DevelopmentTrends and Prospects Zheng Nanning*,Yang Meng,Jiang Weizhou,Sun Hongbin,Ding Ning (Institute of Artificial Intelligence and Robotics,Xi’an Jiaotong University,Xi’an710049,China) Abstract:The development goal of artificial intelligence is to enable machines to think and act like humans,solving complexproblems,and more importantly,interacting effectively in a complex,dynamic,and uncertain physical world.Embodied intelligenceemphasizes that intelligent agents continuously learn and evolve from perception,decision-making,and action processes.It is realizedthrough dynamic interactions with their surroundings via physical embodiments.This approach overcomes the limitations oftraditional static data-driven training models,demonstrating superior adaptability and generalization capabilities in the real world.Ittherefore has become a dominant way to achieve the goal of artificial intelligence.This study explores the conceptual connotations,computational frameworks,and system implementations of embodied intelligence,and,on this basis,further reviews its currentdevelopment status,evolutionary trends,and challenges.In particular,the study highlights the pivotal role of generative artificialintelligence,especially large language models,multimodal large language models,and the advancing large“information‒physical‒ cognitive”models,in accelerating the evolution of embodied intelligence.In the face of intensifying global competition in artificialintelligence,this study further summarizes the achievements and analyzes the risks in the development of embodied intelligence inChina,and proposes key research directions and targeted policy recommendations to help China secure a leading position in the global 具身智能发展趋势与展望 race for embodied intelligence.Keywords:embodied intelligence;artificial intelligence;generative artificial intelligence;environment interaction 下一步发展应重点布局的研究方向与针对性对策,助力我国在全球具身智能竞赛中占据领先地位。 一、前言 人工智能(AI)的发展目标是使机器像人类一样思维和行动,不仅能求解复杂问题,更重要的是能在一个复杂、动态、不确定的环境和物理世界中进行交互。传统智能系统主要依赖封闭场景、仿真场景或者互联网收集的数据进行模型训练,这种数据训练方式无法构建与现实世界动态交互的闭环学习机制,导致智能系统往往难以适应真实的物理世界。具身智能是一种基于物理实体对环境进行感知与适应性交互,进而理解问题、产生智能行为的智能系统,可以突破传统智能系统依赖静态数据表征的局限,是实现AI发展目标的关键路径之一。 二、具身智能的概念与实现 (一)定义与内涵 具身智能打破了传统AI将“智能”局限于大脑内部处理的范式,具身智能体能够通过与环境的持续交互,实现信息采集、认知重构与策略演化的闭环过程。这一理念不仅重构了智能系统的结构设计,也为AI在开放环境中实现更高层次的自主性与适应性提供了理论基础与技术路径。未来,具身智能有望在多场景、多任务、多智能体协同中释放出更强的泛化能力和进化潜力,推动AI迈入真正“类人”认知的新阶段。 具身智能的概念是AI先驱艾伦·图灵在20世纪50年代首次提出的[1]。同一时期,控制论的创立者诺伯特·维纳也提出了类似的行为智能[2]。20世纪80年代,罗德尼·布鲁克斯和罗尔夫·普费弗等学者在此基础上进一步发展了行为主义智能和身体化智能理论[3],我国科学家在“国家高技术研究发展计划”的“智能机器人主题”战略规划中也提出了物体的识别与行为交互智能。直到近年,随着AI计算模型不断涌现、算力极大提升和数据易获性增强,人类长期以来一直追求的具身智能,即通过物理实体(智能体)与环境的交互,使智能系统具有环境的适应性及其智能行为的进化,才真正成为可能[4]。目前,具身智能正在引领AI发展的前沿,有望在智能制造、智慧城市、人机协作等关键应用场景中实现技术突破与示范引领,其产业发展将带来显著的经济和社会效益,大大提升生产效率,推动社会全面进步。 1.基本概念 具身智能通过构建具有本体感知与行动能力的智能体,利用多模态传感器实时捕获环境状态,利用执行机构施加物理作用,并在连续时空维度中形成“感知‒认知‒决策‒行动”的闭环学习系统,从而实现对非确定性环境的动态建模与策略优化。“具身”的含义并非单纯指代物理实体,而是与环境交互以及在环境中执行的整体需求和功能[5]。具身智能强调智能体在物理环境中身体与智能的相互依赖,主张智能不仅仅是大脑的产物,还包括身体与环境的互动。其核心观点是,智能行为不仅依赖于内部的信息处理能力,还取决于智能体的感知和行动能力,即通过感知环境并采取适当的行动来解决问题。 2.具身学习与具身智能 当前,我国在具身智能领域的技术积累、数据资源、人才培养及市场规模等方面已取得显著进展。面对全球AI竞争日趋激烈的新形势,亟需加快具身智能核心技术的自主攻关与体系化战略布局,推动AI实现跨越式发展,抢占新一轮科技革命和产业变革的制高点,抓住重塑全球竞争格局的战略机遇。本文系统梳理了具身智能的核心概念与计算框架,结合国际发展态势,全面总结我国在该领域的阶段性成果与面临的挑战,并据此提出我国 认知根植于身体行动,经验建构于具身交互。从生物进化的角度来看,所有生物的智力活动都依赖于自身身体与环境的交互,通过积累具身经验,不断适应外部环境,从而在行为或行为潜能上产生积极且持久的变化,这一过程被称为具身学习[6]。具体而言,生物体的智能并非孤立存在,而是深受其身体形态及生存环境的影响。认知过程不仅涉及大脑的信息处理,还与物理、生理和心理三个元素相互耦合,形成动态的循环交互。因此,身体不仅 是执行智能任务的工具,更是认知发展的核心组成部分。换言之,智能的演化并非单纯依赖“算法”的优化,而是“身体”与认知过程协同进化的结果。在AI和机器人领域,具身学习这一理念进一步延伸为具身智能,即机器能够自主感知环境、学习、理解并采取适应性行动的能力,如图1所示。通过与环境的持续交互,智能体能够动态调整自身策略,提升决策能力和适应性,从而实现更高级别的智能行为。这种基于身体‒环境交互的智能发展模式,需要基于认知科学、机器人学及AI研究的共同发展,以此构建更具适应性和自主性的智能系统。 这种局限性使得非具身智能在开放环境和未知场景中的应用受限。与之不同,具身智能不仅能够基于交互行为不断调整自身的识别策略,还能通过持续的 环 境 感 知 和 经 验 积 累,动 态 适 应 新 的 目 标 和场景。 (二)计算框架 当前,具身智能正迈向多技术融合的发展阶段,它的实现依赖于世界模型、表征学习、因果推理和生成式AI等AI理论。世界模型提供环境模拟的结构基座,表征学习提升对信息的抽象与表达,因果推理实现从经验到理解的跃升,而生成式AI则构建起智能体与人类意图及动态环境的统一交互接口,其关系如图2所示。 3.具身智能与非具身智能 非具身智能方法通常采用“大规模无监督预训练+小样本有监督微调”的范式[7]来训练神经网络,其核心依赖于大量样本和预设的固定模型进行训练和推理。然而,这种学习方法主要基于静态数据分布,可移植性、可扩展性差,只能在约束条件紧、工作对象少的简单环境下工作[8],难以模拟人类在“大脑‒身体”协作下对目标属性的动态感知和发现能力,因此无法实现具备自主进化能力的高级智能。相比之下,具身智能方法可以通过在虚拟环境中训练大模型,以获取常识表征,并在具体应用场景中结合机器学习方法进行模型优化与进化[9]。这一特性使得具身智能在应对复杂、未知、动态变化的场景时,展现出了更强的适应性和进化能力。例如,在物体识别任务中,基于数据与模型驱动的物体识别方法在面对超出训练数据库范围的新目标时,往往难以适应变化,导致识别性能显著下降。 1.世界模型:构建认知框架 世界模型[10]用于模拟和预测真实世界的运行规律,通过对物理、社会等环境特征与要素关系的抽象建模,构建出可表征环境动态变化的虚拟系统,无论是视觉场景、物理规则,还是人类行为逻辑,都能被编码进模型中,使其具备对未来状态的预测能力,这为具身智能提供了对环境的理解和预测基础,帮助