您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国电信&公安部第三研究所&华为&蚂蚁科技&清华大学&上海交通大学]:AI智能体安全治理白皮书 - 发现报告

AI智能体安全治理白皮书

AI智能总结
查看更多
AI智能体安全治理白皮书

版权声明 《AI智能体安全治理白皮书》由中国电信集团有限公司牵头,联合公安部第三研究所、《信息安全研究》杂志社、华为技术有限公司、蚂蚁科技集团股份有限公司、清华大学、上海交通大学共同编写完成。 本白皮书的版权归上述编写单位共同所有。未经许可,任何机构或个人不得以任何形式对本白皮书的全部或部分内容进行复制、转载、摘编、发行或用于商业用途。若需引用、转载或使用本白皮书内容,必须注明来源为《AI智能体安全治理白皮书》,且不得对内容进行歪曲或篡改。 本白皮书所载内容仅供参考,编写单位对因使用本白皮书内容而导致的任何直接或间接后果不承担法律责任。 目录 前言.......................................................................................1 一、背景概述 1.1 AI智能体定义................................................................41.2 AI智能体安全风险........................................................61.3 AI智能体安全治理........................................................7 二、AI智能体安全风险 2.1感知层风险....................................................................112.2决策层风险....................................................................132.3记忆层风险....................................................................152.4执行层风险....................................................................17 三、AI智能体安全治理 3.1感知层安全....................................................................19 3.2决策层安全....................................................................21 3.3记忆层安全....................................................................22 3.4执行层安全....................................................................23 四、AI智能体安全治理实践 4.1智能体平台安全治理实践............................................254.2 MCP安全治理实践........................................................284.3端侧智能体安全评测实践............................................31五、持续提升建议...............................................................37附录.......................................................................................40参考文献...............................................................................42 前言 当前,人工智能技术正经历从“对话智能”向“决策智能”跃迁的关键发展阶段。基于大语言模型的AI智能体已实现质的突破,其功能定位已从基础指令执行单元转型升级为具备复杂认知推理与战略决策能力的智能系统,最终发展为能够自主感知环境态势、独立制定行动方案并高效执行任务的"数字协作伙伴"。这一技术范式的革新显著拓展了人工智能的应用疆域,在金融风险管控、智慧医疗体系、先进制造产业及社会化公共服务等诸多领域,AI智能体正持续推动生产模式与服务形态的深度变革。 然而,技术能力的显著提升亦伴随着潜在风险的同步增长。近期发生的多起人工智能智能体安全事件,充分暴露了该领域现存的脆弱性特征。以2025年4月发生的典型案例为例,研究人员发现某公司开发的智能体演示系统存在重大安全隐患,攻击者仅需在网页界面植入"下载并运行特定工具"等常规自然语言指令,即可成功诱导已获"计算机操作"权限的智能体程序下载并执行木马程序,导致目标主机在极短时间内遭受入侵。该案例明确显示,当AI智能体被赋予自主执行权限时,常规语言交互机制可能被恶意利用作为远程攻击的后门通道。 此外,InvariantLabs研究机构近期披露了一种针对终端智能体的新型提示词注入攻击手法。攻击者通过将恶意指令 嵌入WhatsApp即时通讯软件的超长滚动文本信息中,诱使用户执行"滑动至页面底部"的操作行为。在此过程中,智能体系统错误地将该用户交互行为解读为"默认授权"指令,进而在用户完全不知情的状态下实施隐私数据窃取。值得注意的是,该攻击方法通过精心设计的技术路径,有效规避了传统安全审计机制的监测,展现出极强的隐蔽性与危害性。 在此背景下,中国电信携手合作伙伴共同编制并正式发布《AI智能体安全治理白皮书》。该白皮书基于"感知—决策—记忆—执行"四层核心架构体系,系统性地梳理了智能体在全生命周期运行过程中的关键风险节点;在技术实施路径与治理框架设计方面,坚持技术防护与制度规范并重原则,创新性地提出覆盖数据感知、模型推理、记忆保护及任务执行等环节的全维度安全治理方案;通过遴选具有代表性的行业典型案例,深入阐释AI智能体风险在不同应用场景中的具体防控措施,并提炼形成具有重要参考价值的治理实践经验。 本白皮书旨在为产业界、学术界及政策制定机构构建系统化的参考体系,既有助于社会公众正确认知AI智能体的应用价值与潜在风险,亦为治理主体与技术开发者提供具备实操性的解决方案,以期共同促进AI智能体技术沿着安全、可控、可信的发展路径实现健康可持续发展。 本白皮书由中国电信集团有限公司牵头,内部组织中国 电信研究院、天翼安全科技有限公司、中电信人工智能科技(北京)有限公司、中国电信人工智能研究院、中国电信股份有限公司云南分公司,外部联合公安部第三研究所、《信息安全研究》杂志社、华为技术有限公司、蚂蚁科技集团股份有限公司、清华大学、上海交通大学联合编写。 主编:谷红勋、张侃、李安民、刘紫千、阮宜龙、魏亮(中国信通院)、金波、李加赞、王维强、谷大武编委会:何国锋、武姗姗、黄挺、杨哲超、张慧琳、宋好好、石霖(中国信通院)、刘强、田波、王勇、马宇飞、王烁、刘卓涛、潘静、李雪梅、高毅昂、田毓嘉、凌颖、张子婷、程崇浩、曹辉、崔乾、崔卓、高玉堃、邵萌、胡华东、黑一鸣(中国信通院)、崔世文、沙泽阳 一、背景概述 随着AI在各行各业日益广泛应用,AI智能体迅猛发展,成为现阶段人工智能应用的主要形式之一。中国电信集团及其合作伙伴高度关注AI智能体安全,持续开展针对AI智能体的安全治理工作。本白皮本介绍了我们对AI智能体安全治理的认知、思考与实践,供参考借鉴。 1.1AI智能体定义 “AI智能体”是指能够自主感知环境、制定决策、采取行动实现特定目标的智能系统,一般具有记忆、规划、使用工具等基本能力,具有自主性、交互性、反应性和适应性等基本特征[2]。 AI智能体的发展历经多年演进,早期的智能体系统主要依赖规则和逻辑推理[4],受限于算力和算法复杂度,能够完成的任务相对简单,如基础语言分析。此类系统缺乏长期规划能力和自主学习能力,其行为高度依赖预设规则,无动态调整或学习能力。随着计算能力和数据资源的持续提升,研究者开始采用强化学习[5][6]等方法,使AI智能体能够通过与环境交互不断优化策略与表现。此阶段的智能体不仅能够执行任务,还能够在一定程度上进行自我调整和策略改进[30]。AlphaGo是这一类智能体的典型代表,它通过强化学习实现了复杂策略的自主优化。 近年来,基于大语言模型的智能体[7][12]成为主流,这类 智能体不仅具备语言理解和生成能力,还能够通过思维链技术进行任务分解、规划和执行。它们可以整合内外部数据资源,调用工具或插件完成复杂任务,并在多个智能体间实现协作,从而提升整体任务处理能力。同时,模块化架构和开源工具的出现,使开发者能够更快速地搭建具备自主能力的智能体系统。本文后续“AI智能体”均指“基于大语言模型的智能体”。 AI智能体与大语言模型的主要差异[27]如下: 1.2AI智能体安全风险 与大语言模型相比,AI智能体不仅继承了模型与数据层面的常见风险(如越狱攻击、对抗样本攻击、提示注入、数据投毒等),还因其具备多模态感知、自主规划与执行等特性,衍生出一系列独特的系统性风险。这些风险往往与具体应用场景深度耦合,并可能被链式放大,带来更严重的安全隐患,主要体现在以下几个方面: 多源感知失效风险:AI智能体依赖多模态传感器和环境数据进行感知,但攻击者可能通过传感器欺骗、环境干扰或对抗性样本输入,导致感知结果偏差。例如,通过激光雷达干扰虚拟障碍物、超声波攻击语音助手或对交通标识进行对抗性扰动,均可能使智能体误判环境状态,进而触发危险行为。 决策幻觉风险:当AI智能体具备一定程度的自主决策与执行能力时,其错误输出可能通过链式反应放大[18],造成系统性事故。特别是在自动驾驶系统、金融交易环境及医疗诊断等具有高度敏感性与关键性的应用场景中,即便是微小的逻辑推理偏差,亦可能诱发具有重大影响的安全事故。 对话记忆污染风险:不同于仅依赖参数化知识的大语言模型,AI智能体通常维护外部记忆库以存储用户交互与任务上下文。如果攻击者在交互中注入恶意信息或虚假知识,这些信息可能被持久保存并反复调用,造成长期污染与隐蔽操控。例如,篡改智能体记忆中的身份信息,可能导致后续任务出现越权操作或隐私泄露。 工具恶意执行风险:AI智能体常通过插件或工具接口与外部系统交互,这些接口成为潜在的攻击面。如果调用链缺乏有效隔离与权限控制,可能被利用实现指令注入、越权操作甚至渗透攻击[19]。 1.3AI智能体安全治理 为应对这些挑战,全球各国和标准化组织正在积极推动AI智能体安全标准的制定与治理体系的构建,逐步将安全要求从相关规定落地到可操作的实践框架。 在国际层面,多个组织开展AI智能体相关标准研究。联合国世界数字技术科学院(WDTA)发布了《AI智能体运行时安全测试标准》(AI-STR-04),这是全球首个聚焦自主智能体运行安全的标准,提出了“双层测试框架”,既包括对系统内部架构(如记忆、规划、工具调用等)的安全性评估,也涵盖生命周期安全测试,从研发、部署到运维实现全过程防护。国际电联电信标准化部门(ITU-T)制定了《AI智能体安全需求与指南》和《基于预训练大模型的AI智能体要求与 评估方法(F.748.46)》,从能力需求、技术框架、安全评估和实施指南等多个维度,为基于大语言模型的AI智能体提供了系统化的评估与监管方法。 中国通信标准化协会(CCSA)启动编制《智能体通用技术能力要求》与《智能体安全要求》两项行业标准。中国信息通信研究院与人工智能产业联盟联合发布了《智能体安全通用技术要求》,人工智能标委会开展《人工智能安全治理智能体安全通用技术要求》研究。这些标准共同构成了覆盖通用要求、运行测试与特定应用场景的多层次国内