您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[赛迪]:网络安全研究:具身智能产业发展趋势研究及安全威胁分析报告 - 发现报告

网络安全研究:具身智能产业发展趋势研究及安全威胁分析报告

信息技术2025-04-15-赛迪W***
网络安全研究:具身智能产业发展趋势研究及安全威胁分析报告

『所长导读』“具身智能”是指将人工智能融入机器人等物理实体,赋予它们感知、学习和与环境动态交互的能力。在人工智能与物理世界深度融合的当下,具身智能正以颠覆性姿态重塑全球产业格局。具身智能通过赋予机器“大脑”,使其具备感知、决策与执行的全栈能力,正在工业、医疗、服务等领域催生万亿级市场机遇。2025 年,具身智能被写入我国政府工作报告,标志着具身智能正式成为国家未来产业的重点发展方向。目前,从国家层面到地方政府,我国出台了一系列政策措施,重点围绕核心技术攻关、重点场景应用、资金和人才保障等方面,积极营造良好的发展环境,积极推动具身智能产业飞速发展。整体来看,具身智能产业呈现多技术融合推动具身智能系统能力泛化升级,具身智能数据生态向质量标准化、多元规模化、通用协同化发展迈进,仿真平台大量涌现将重塑具身智能产业发展模式,具身智能机器人应用场景分阶段商业化落地,材料革命重塑具身智能产品形态和场景应用等发展趋势。然而,随着具身智能相关技术和产品的快速迭代,应用发展过程中也带来了网络安全、数据安全、伦理安全等前所未有的安全风险。本期阐梳理了国外具身智能产业发展情况,总结了我国具身智能产业发展情况、面临的问题,分析了全球具身智能产业发展趋势,以及具身智能应用发展面临的安全威胁,最后从产业创新和安全风险应对两方面提出了对策与建议。希望本期内容能为政府部门、企业机构和社会组织提供参考和借鉴,并欢迎各界读者不吝赐教。 赛迪研究院网络安全研究所所长 温晓君2025 年 4 月 15 日 具身智能产业发展趋势研究及安全威胁分析报告一、基本概述…………………………………………………………1(一)概念与内涵……………………………………………………………………1(二)发展历程与演进………………………………………………………………2(三)技术体系………………………………………………………………………3(四)产业链构成……………………………………………………………………6二、具身智能产业发展情况…………………………………………7(一)全球产业发展情况……………………………………………………………7(二)我国产业发展情况…………………………………………………………15(三)我国产业发展面临的问题…………………………………………………27三、全球具身智能产业发展趋势分析……………………………29(一)多技术融合推动具身智能系统能力泛化升级……………………………29(二)具身智能数据生态向质量标准化、多元规模化、通用协同化发展迈进…29(三)仿真平台大量涌现将重塑具身智能产业发展模式………………………30(四)具身智能机器人应用场景分阶段商业化落地……………………………30(五)材料革命重塑具身智能产品形态和场景应用……………………………31四、具身智能应用发展面临三大安全威胁………………………32(一)数实风险叠加提升具身智能系统网络攻击危害程度和防范难度………32(二)具身智能系统采集多维度数据对个人隐私、国家安全造成潜在威胁…32(三)具身智能系统面临责任模糊等伦理安全问题……………………………33目录目 录CONTENTS 本期主题: 五、对策建议………………………………………………………33(一)完善具身智能产业政策法规保障体系……………………………………33(二)加快构建开放共享的具身智能产业生态…………………………………33(三)加强具身智能核心技术研发创新和人才培养……………………………34(四)建立分级分类具身智能标准测试体系……………………………………34(五)加快推动具身智能产品场景落地…………………………………………34 一、基本概述(一)概念与内涵1、定义根 据 中 国 计 算 机 学 会(CCF)发 布 的《 具 身 智 能 |CCF 专 家 谈术 语 》, 具 身 智 能(EmbodiedIntelligence)是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。该定义强调智能行为是身体与环境动态交互的结果,而非仅依赖抽象计算或孤立的大脑功能。2025 年,具 身 智 能 被 首 次 写 入 政 府 工 作 报告,标志着它正式成为国家未来产业的重点发展方向。2、与人形机器人、智能体等概念辨析具身智能≠人形机器人,人形机器人只是一种物理实体形态,但本期主题:具身智能产业发展趋势研究及安全威胁分析报告 《网络安全研究》2025年第1期被广泛认为是最理想的应用形态。具身智能≠智能体,智能体(AIAgent)是一种能够自主感知环境、进行决策并执行任务的智能系统,其表现形式可以是一个程序、一个系统或是一个机器人,如聊天机器人 ChatGPT、虚拟苹果助手 Siri、智能机器人等都属于智能体。3、特点传统的人工智能,更多是指存在于计算机程序、云端服务器中的虚拟智能,无法直接感知和影响物理世界。具身智能通过物理载体与环境交互实现智能行为的涌现,突破了传统 AI 依赖符号处理或数据驱动的局限性,更贴近生物智能的本质。(1)物理交互性:传统的 AI更多指存在于计算机程序、云端服务器中的虚拟智能,无法直接感知和影响物理世界。而具身智能依赖 1 《网络安全研究》2025年第1期2物理实体(如传感器、机械部件)与环境直接互动,而非仅处理抽象数据。(2)环境适应性:传统的 AI只能按照预设程序重复机械动作,而具身智能通过感知实时环境、执行物理交互行动、根据环境实时反馈,形成“感知 - 行动 - 反馈 - 调节”的自我改进闭环,可实现根据复杂环境变化、不同任务要求,自主调整行为策略,如机器人避障、任务重新规划等。(3)具备生产力型技能:具身智能凭借物理执行能力、与环境交互的实时学习能力,以及与人类协作的灵活性,可执行传统 AI 无法完成的实体任务,如工业机械臂精准装配、手术机器人辅助操作、仓储机器人分拣搬运,都直接提升生产效率。4、分类具身智能的核心在于“具身性”(即物理载体的存在),其类别包括以下形态:(1) 类 人 机 器 人(HumanoidRobots,俗称人形机器人),如特斯拉 Optimus、优必选 Walker S1, 设计模仿人类身体结构,适应人类环境。(2) 仿 生 机 器 人(BionicRobots):借鉴生物形态(如动物、昆虫)的机器人,适应特定环境需求,例如宇树科技四足机器人、波士顿动力机器狗 Spot、仿生鱼机器人。(3) 环 境 嵌 入 式 系 统(Embedded Agents):与固定环境深度融合的智能体(如智能网联汽车、智能家居设备、无人机、工业机械臂),例如 ABB工业机器臂、达芬奇系统的手术机器人。(二)发展历程与演进具身智能的发展主要可以分为方向探索、融合发展、创新突破三个阶段。方向探索阶段始于 1950 年艾伦 • 图灵提出“赋予机器感知能力并加以训练”这一具身智能最初认识,终于 1990 年代罗德尼 • 布鲁克斯、罗尔夫 • 普费弗和克里斯蒂安 • 谢尔等形成行为主义智能和身体化智能概念,业界花费近 50 年时间明确具身智能发展的理论基础和前进方向。第二阶段自 2000 年到 2020 年,期间不同学科领域的前沿技术被集中应用于具身智能研发,具身智能感知、理解、控制等能力持续提升,服务功能多样化、任务场景多元化,商业市场份额明显扩大。第三阶段为 2021 年至今,大模型的迅猛发展赋予具身智能更强的(三)技术体系具 身 智 能 的 技 术 体 系 可 分 为“感知—决策—行动—反馈”4 部分1。1、感知模块:多模态融合与动态环境解析感知模块是具身智能与外界交互的基础,通过多种传感器模拟人 《网络安全研究》2025年第1期3环境感知、语言理解、信息交互、任务规划、决策制定等能力,具身智能通用性、适应性、自主性显著提升,全球各界给予广泛关注、投资,以人形机器人为代表的新一代具身智能产品井喷式涌现,规模化应用近在眼前。如下图所示。类的感知能力,为后续的决策和行动提供信息输入,包括视觉感知、听觉感知、触觉感知、嗅觉和味觉等其他感知。(1)视觉感知,主要依赖摄像头等成像设备获取环境图像,运用计算机视觉算法,如卷积神经网络(CNN)进行图像识别、目标检测、 知技术则相对更具挑战性,目前主要集中在对简单味觉物质的检测和识别,通过化学传感器或生物传感器实现。2、决策模块:大模型驱动与任务规划决策模块是具身智能的核心,负责根据感知模块获取的信息,做出合理的决策和行动规划,包括大模型决策、分层决策模型、端到端模型等技术。(1)大模型决策利用 GPT、RT-2 等大模型强大的语言理解和生成能力,结合感知到的环境信息,进行任务理解、规划和决策。(2)分层决策模型通 常 分 为 三 层: 策 略 控 制 系统(SLC) 通 过 大 模 型 整 合 任 务、环境和本体感知信息,制定高层策略;环境交互的控制系统(ELC)通过具身模型实现环境感知和动作规划,将高层策略转化为具体的动作序 列; 行 为 控 制 系 统(PLC) 通 过传统控制算法输出机器人控制的力矩实现最终动作。这种分层架构使得决策过程更加清晰和可管理。如 《网络安全研究》2025年第1期4语义分割和场景理解等任务,主要涉及机器视觉技术、机器视觉技术等。(2)听觉感知,借助麦克风等音频采集设备获取声音信号,利用 语 音 识 别 技 术 将 声 音 转 换 为 文字,同时结合自然语言处理技术理解语音中的语义和意图。此外,还包括声源定位技术,能够确定声音的来源方向,帮助具身智能物理载体判断周围环境中的声音信息,主要涉及自然语言处理技术、基于深度学习的自然语言处理技术等。(3)触觉感知,通过在具身智能物理载体表面或执行器上部署触觉传感器来感知与物体接触时的压力、纹理、温度等信息。同时,需要相应的信号处理算法将传感器采集到的原始信号转换为有意义的触觉信息,以便具身智能物理载体做出正确的反应。(4)其他感知除 了 视 觉、 听 觉 和 触 觉 感 知外,具身智能还可能涉及嗅觉、味觉等感知方式。在嗅觉感知方面,主要通过气体传感器检测环境中的气体成分和浓度,利用模式识别算法对气味进行分类和识别。味觉感 《网络安全研究》2025年第1期5提供理论基础;运动控制算法则根据规划的动作轨迹,实时调整机器人各关节的驱动力或运动参数,实现精确的运动控制。(2)仿生学技术借鉴生物的运动方式和结构,设计和制造更具适应性和灵活性的机器人。例如,模仿昆虫的腿部结构和运动方式,设计出能够在复杂地形快速移动的微型机器人;模仿人类的手部结构和肌肉控制原理,开发出具有高灵活性和抓握能力的灵巧手。仿生学技术还包括对生物感知和行为模式的研究和模仿,以提高机器人的智能水平。4、反馈模块:闭环学习与仿真验证反馈模块是具身智能实现自我优化和持续学习的关键,通过对行动结果的反馈,智能体能够调整决策和行动策略,提高任务执行能力。涉及强化学习和迁移学习技术、物联网和通信技术等。(1)强化学习和迁移学习技术强化学习通过具身智能载体与环境的交互,根据环境反馈的奖励信号不断调整自身的行为策略,以最大 OpenAI 与 Figure 合 作 的 Figure01的分层决策模型。(3)端到端模型利用一个神经网络完成从输入到感知、推理、决策和行为指令输出的全过程。输入是任务和对象的组合,输出是一系列动作。端到端模型通过在大规模互联网数据和机器人任务数据上的预训练和微调,实现对复杂任务的直接处理。例如,以 GoogleRT-2 为代表的端到端模型。3、行动模块:运动控制与精细操作行 动 模 块 负 责 将 决 策 模 块 生成的动作规划转化为实际的物理运动,使具身智能载体能够在环境中执行任务。涉及机器人学相关技术、仿生学技术等。(1)机器人学相关技术包括机器人的机械结构设计、运动学和动力学建模、运动控制算法等。合理的机械结构设计能够确保机器人具备良好的运动性能和负载能力,例如人形机器人的关节设计需要兼顾灵活性和稳定性;运动学和