行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

中国人工智能学会系列白皮书——具身智能

信息技术 2025-11-01 - 中国人工智能学会在路上

具身智能作为人工智能领域的重要研究方向，专注于智能体通过物理本体与外界环境的互动来实现智能的理论与技术研究。其核心在于建立“感知—认知—行动”的动态闭环机制，推动人工智能从“离身计算”向“具身智能”的范式跃迁。

具身智能兼具多技术融合与多学科交叉特性，与计算机科学、机器人学、神经科学、认知科学等不同领域都紧密相关。其关键技术涵盖物体操作、环境感知、任务理解与决策推理这三大核心部分，它们共同构成了机器人的“手-眼-脑”，协同支撑起智能体在现实场景中的自主行动能力。

具身智能的关键技术包括强化学习、具身感知、具身推理、具身操作、具身导航、具身交互、群体具身智能、具身世界模型和具身大模型等。其中，具身大模型凭借其深厚的通用知识库和智能涌现能力，为机器人提供了更高层次的智能感知、自主决策和拟人化交互能力，成为新一代机器人智能中枢。

具身智能数据集与平台对于具身智能技术的训练和验证至关重要。具身智能数据集可以按照获取成本由高到低、可规模化程度由低到高大致划分为：真机数据、仿真数据和互联网视频数据。主流仿真平台包括NVIDIA的Isaac生态系统、MuJoCo、PyBullet和SAPIEN等。

具身智能目前正逐步渗透到各个行业，包括工业制造、生活服务、医疗康养、农业和交通等。随着更多企业和研究机构的关注，具身智能必将加速发展，为社会的创新与转型提供源源不断的动力。

具身智能的未来发展主要聚焦于技术创新、应用拓展和产业生态三个维度。技术层面将致力于提升人机交互的自然性和智能体的环境适应能力；应用范围将向更开放、更复杂的场景进行延伸；产业生态建设将聚焦标准规范体系的建立与完善。同时，具身智能的技术伦理和安全保障也将成为重要研究方向，以确保具身智能技术发展与社会需求的协调统一。

中国人工智能学会二○二五年十一月中国人工智能学会系列白皮书⸺具身智能中国人工智能学会二○二五年十一月编委会主任：戴琼海执行主任：马华东副主任：赵春江何友王恩东郑庆华刘成林周志华孙富春庄越挺胡德文杜军平杨强委员：陈松灿董振江付宜利高新波公茂果古天龙何清胡清华黄河燕季向阳蒋田仔林浩哲梁吉业刘奕群潘纲石光明孙茂松孙长银陶建华王海峰王熙照王轩王蕴红吴飞于剑余有成张化光张学工章毅周鸿祎周杰祝烈煌 ·······················································1 1.1·····································································11.2····························································21.3·····································································3 ···························································5 2.1·················································································62.2·················································································72.3·················································································92.4·················································································112.5·················································································132.6·················································································152.7···········································································172.8···········································································182.9··············································································212.9.1· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·232.9.2· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·232.9.3· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·242.10·········································································25 ·······················································30 3.1········································································303.2········································································35 ······························································42 4.1··············································································434.2·······················································································454.3·······················································································464.4·······················································································524.5··············································································54 ·······················································57 5.1·························································575.2·························································605.3·························································615.4····························································62 ···················································································63 ··················································································87 1.1 2050Alan Turing1950Computing Machinery and IntelligenceEmbodied Intelligence 2080AIRodney Brooks Deep LearningReinforcement Learning +Optimus-- Large Language ModelsDeepMindRTRT-H Meta AICortexBenchVC-1NVIDIAGPUAIProject GR00TJetson ThorIsaac 1.2 2080 1.3 1-1-Sim-to-Real Gap [1–6]3D Gaussian Splatting- [7] residual policy [8–10] [11–13] [14–16] -- 2.1 RL UC BerkeleyNoMaD[17]MetaNWM[18] VLAVision-Language-ActionDeepMindRoboCat[19]StanfordHumanPlus[20] [21,22][23]UC BerkeleyAMP [24]HugWBC[25] Amazon Robotics[26]RHINO[27] 2.2 [28][29]Early FusionPointFusion[30]Late FusionCLOCs[31]3DIntermediate FusionBEVFusion[32] [33][34][35]MP5[35]Minecraft [36][37,38][39][40][41][42] 2.3 AIPDDL 1 2SayCan[43] affordance 3ReAct[44]Text2Motion[45]VLP[46]REFLECTLLM Code-as-Policies[47]APIRoboCodeX[48] Vox-Poser[49]OmniManip[50]ReKep[51]VoxPoserOmniManipReKepPalm-E[50]EmbodiedGPT[52]EGO4D[53]EGOCOT[52]RT-1[54]RT-2[55]RT-X[56]π0[57]-- 2.4 VoxPoser[49]OmniManip[50]ReKep[51] --Vision-Language-Action ModelVLA2-1 VLA 1VLM + -Visual-Language Model, VLM 2VGM + Video-Generation Model, VGM 3VLM+Latent+Action Latent Action Tokens)- 2024-2025 VLM +2024Physical Intelligenceπ0VLM+ RDT2025FigureVLAVLM VGM +VLM+VGM +GR-2+ATMFLIP VLM+Latent+Action2025Vision-Language-Latent-Action (ViLLA)VLAViLLALatent Action Tokens)-SOTAViLLAVLM+MoEVLMMoELatent PlannerMoEVLMLatent PlannerAction Expert 2.5 [58][59][60][61] /- [62][63][59][59][64] -VLMLLMVLM[65]-[66]LLM[67]LLM 2.6 2001[68] [69][70]DialFRED[69][71]2-2 RT2[72][73]Long[74]2-3 2.7 2-4 2-5- -- 2.8 LLM[75]VLM/[76–79]AGI[80] 2-6 [43,81,82][83]Ha[84]LeCun[80][85,86] Transformer(ViT)[87,88]Robo Craft[89]PointNet[90,91][92]LLMs[75,93,94]LLMs[95–98]BC-Z[99]Text2Motion[100]ReasonedExplore[101]Not Train Dragon[102]LLM MORL[103]Trajectron++[104][105]Transformer[106]VIPER[107]TransformerGenie[108]2-7GR-2[109,110] UniPi[111]RoboDreamer[112]VPDD[113]ReflectVLM[114] 2.9 2-8---- 2.9.1 SAM-6D[115]S

点击免费查看完整报告

中国人工智能学会系列白皮书——具身智能

你可能感兴趣

中国人工智能学会系列白皮书：分层分类人工智能通识教育课程体系

中国人工智能学会系列白皮书⸺教育研究中的AI4S

中国人工智能学会系列白皮书：元宇宙技术（2025版）

中国人工智能学会系列白皮书⸺智能航空2024

中国人工智能学会系列白皮书⸺农业大模型

中国人工智能学会系列白皮书⸺语言智能

中国人工智能学会系列白皮书⸺棋盘上的人工智能

中国人工智能系列白皮书—具身智能（2026版）

中国人工智能系列白皮书：具身智能（2026版）

中国人工智能系列白皮书—具身智能（2026版）