AI智能总结
2025年9月17日分享人:李滨 安全风险治理与防护 案例1:“EchoLeak”–某知名SaaS办公软件Copilot零点击数据窃取 该漏洞首次证实了针对企业级AI助手的零点击攻击是完全可行的,Copilot可访问的任何数据(包括网盘、共享文档、邮件、应用数据集)都面临被窃取的可能。在AI新形态漏洞的威胁下,提高企业生产力的工具,可能转变为一个潜在的企业窃密活动通道。 案例2:“AgentSmith”–LangSmith平台AI供应链攻击 隐蔽恶意Agent实现敏感信息泄露和中间人攻击(MITM) 创建与发布 该攻击揭示了AI⽣态系统中⼀个全新的供应链攻击向量,证明对公共智能体/提示仓库的信任存在巨⼤安全⻛险,攻击者可以利⽤这些平台分发“特洛伊⽊⻢”式的智能体,从⽽危及⽤户的数据和⼯作流安全。 🏢AI生态软件供应链风险 案例3:“Living Off AI”–Atlassian JSM通过支持工单进行的隐蔽越权攻击 该攻击揭示了AI⽣态系统中普遍存在的“混淆代理⼈”问题,由于LLM和智能体普遍存在替⽤户执⾏操作的权限代理,当在复杂数据和执⾏上下⽂环境中,身份与权限的⼀致性不能保证,导致潜在的越权和滥⽤。 案例4:CVE-2025-58444-MCP Inspector通过XSS实现的远程命令执行 将传统应用漏洞XSS攻击升级为对AI本地开发环境的威胁 AI世界的攻击不仅针对服务端应⽤,也针对开发者桌⾯,该漏洞将⼀个看似仅限于浏览器的XSS问题,转变为⼀个能够完全控制开发者本地环境的严重威胁。攻击者只需诱骗开发者连接到⼀个恶意服务器,即可窃取源代码、API密钥、植⼊后⻔或在企业内⽹中进⾏横向移动,再次凸显了AI应⽤软件⽣态中普遍存在的供应链和AI⽣成代码安全问题。 大模型和智能体应用在企业场景中的十大常见安全风险 01 自建模型平台暴露面过大06 样本投毒(数据污染) 模型数据和隐私泄露07 02 恶意利用(Prompt注入攻击) 03 模型推理劫持(对抗样本攻击)08 代码辅助工具数据泄露(第三方代码辅助工具) AI伦理与偏见放大09 第三方代码依赖风险(开源模型/库污染)04 开源模型滥用(深度伪造与辅助犯罪)10 05 自动化Agent权限滥用误用 人工智能与大模型的风险组成结构 智能体应用安全 •敏感信息泄露风险:越狱攻击输出受控内容;•应用开发安全风险:编码规范、风险开源组件;•应用服务风险:api攻击,web服务攻击、ddos攻击;•业务安全风险:批量注册、恶意引导、内容爬取; 大模型运行环境安全 •开发框架风险:框架漏洞(包含组件漏洞);•开放数据集及训练工具风险;•污染的开放数据集风险; 大模型本体内生安全 推理 训练 •数据泄露的风险(私有数据集、模型文件、个人隐私);•供应链安全风险:木马后门、组件漏洞;•越狱风险;•prompt指令数据泄漏; 大模型基础设施安全 •基础设施自身的安全性:操作漏洞风险、计算资源漏洞风险权限设置不当风险;•基础设施的运维安全性:误操作、违规操作; 关键问题一:认知与行为-大模型越狱攻击方法和威胁模型 AI智能应用攻击面 •智能体工具•API接口 •激活值、权重•注意力机制 •结构化标签•解码过程 •用户直接输入•API传输参数 •图像、文本•音频、视频 •RAG系统•API传入 模型核心脆弱性 •歧义、隐喻•角色扮演误解 •结构化输出恶意利用•不恰当输出 •编码混淆绕过•过滤机制薄弱 •梯度攻击•黑盒搜索 •对抗扰动•跨模态语义不一致 •元指令覆盖•优先级混乱 2、基于输出结构的攻击 3、针对跨模态不一致的攻击 4、基于优化的攻击 1、基于提示工程的攻击 利用计算优化技术自动发现触发不安全行为的对抗性提示关键技术:梯度攻击(GCG)、黑盒优化、遗传算法、通用对抗触发器 操纵模型生成结构化输出时的解码约束,迫使生成有害内容关键技术:约束解码攻击(CDA)、恶意JSONSchema、正则表达式约束 关键技术:角色扮演(DAN)、指令操纵、输入混淆(Base64/Leetspeak)、上下文操纵、间接提示注入 7、组合/混合攻击 6、自动化生成和模糊测试 8、智能体和工具上下游攻击 5、表征工程攻击 结合多种攻击技术,形成更复杂隐蔽的攻击链 利用LLM作为决策核心的能力,滥用外部工具和API 直接操纵模型内部神经表征,绕过高层安全机制 系统性生成大量测试用例,发现新的越狱模式 关键技术:攻击者LLM(PAIR)、遗传算法(GPTFuzzer)、系统化模糊框架 关键技术:提示工程+输入混淆、优化攻击+角色扮演、多模态+提示工程 关键技术:工具滥用、权限提升、反馈循环操纵、资源消耗 关键技术:激活向量操纵(RepE)、安全表征识别与利用 关键问题二:生态与治理-智能体交互协议和应用生态风险 传统漏洞攻击链放大 混淆代理人问题 新的供应链安全风险 针对AI的新型混合攻击 系统性的安全疏忽 MCP等AI交互协议设计初期以“便利”和“易用”为主要考量,缺乏基础安全控制机制 经典安全漏洞在AI环境中被显著放大,升级为控制面攻击 社区驱动的生态系统缺乏治理,形成信任匮乏的软件供应链 结合传统漏洞与AI特性的新型攻击模式,实现语义层面的控制 权限传递不一致导致的越权访问和权限滥用 •命令注入(43%实现存在)•SSRF(30%实现存在)•路径遍历(22%实现存在)•SQL注入转提示注入 •工具投毒(ToolPoisoning)•规划线路僭越(LineJumping)•存储式提示注入•级联幻觉攻击•RAG上下文污染 •MCP生态的"漏洞债务"•“木偶”攻击/恶意服务器伪装•“地毯抽拉”攻击(Rug Pull)•跨服务器恶意调用链 •身份管理一致性缺失•权限提升攻击•双向混淆代理人风险•多智能体系统复杂性 •身份认证机制缺失•权限控制不足•缺乏审计追溯能力•默认配置不安全 智能体场景下攻击链的变化: 关键问题三:可信任身份与执行-智能体应用场景带来新的复合攻击面威胁 人工智能风险评估与控制方法框架 AI运行环境与基础设施安全风险(AlRuntime Environment&Infrastructure Security) AI治理、伦理与合规风险(AlGovernance, Ethics &ComplianceRisks) AI智能体与自主系统安全风险(AlAgent & AutonomousSystemSecur ity) 模型安全与鲁棒性风险(ModelSecurity & Robustness) 数据安全与隐私风险(Data Security& PrivacyRisks) AI应用与集成安全风险(AlApplication & IntegrationSecurity) •计算/存储资源隔离不当•配额与限制管理不当资源管理与隔离风险 治理与责任缺失 训练数据安全 AI应用自身风险 智能体核心能力安全 模型窃取与泄露 •缺乏AI安全治理框架和责任主体•AI伦理与偏见放大•模型可解释性不足导致风险追溯困难•端侧/边缘数据收集的透明度与告知同意 •数据污染/投毒•训练数据隐私泄露•数据来源与合规性风险•数据偏见与歧视 •意图破坏与目标操纵•失准与欺骗性行为•记忆投毒•工具滥用/智能体劫持 •模型参数/架构泄露•模型逆向工程•端侧/边缘模型物理提取 •传统应用安全漏洞•不安全的输出处理•业务逻辑滥用风险 运行时依赖与库安全 •AI框架漏洞•第三方库与依赖组件漏洞•序列化/反序列化漏洞 外部组件或服务集成风险 智能体身份与权限安全 数据输入/输出安全 法律法规遵从风险 模型可用性与鲁棒性 •提示词注入/恶意利用•敏感信息泄露(通过交互)•输出内容违规/有害•个人隐私泄露(通过生成内容)•端侧/边缘传感器数据投毒/篡改•端侧/边缘环境中的隐私泄露 •缺乏智能体身份认证•身份欺骗与冒充•权限泄露/滥用•非人类身份(NHI)管理风险•端侧/边缘Agent凭证硬编码与蔡路 •对抗性攻击/模型推理劫持•模型规避(绕过过滤/审查规则)•模型拒绝服务•端侧/边缘计算资源耗尽攻击•针对端侧模型的物理对抗攻击 •违反数据保护法规•违反特定行业AI应用法规和标准•知识产权侵权风险•跨境数据流动合规 •API安全风险•不安全的插件/工具集成•过度代理权/不安全的函数调用模型上下文协议(MCP)风险•端侧/边缘的接口安全缺陷 网络环境安全 •开放的暴露面和攻击面•网络隔离与访问控制不足•不安全的网络协议与配置•分布式拒绝服务攻击 恶意利用与社会影响风险 智能体交互与生态风险 模型行为风险 •深度伪造与信息操纵•AI技术滥用于网络攻击、欺诈等•对就业和社会结构的潜在冲击 •智能体通信投毒•多智能体系统中的流氓智能体•针对多智能体系统的人类攻击•边缘节点间Agent通信安全 数据存储与传输安全 •AI幻觉•模型偏见与伦理风险•模型漂移•过度自信/校准不足 AI应用身份与权限管理 计算环境安全 •数据泄露(存储/传输)•未授权访问与数据篡改•端侧/边缘数据存储安全•端-边-云通信劫持与窃听 •操作系统漏洞与配置错误•虚拟化/容器逃逸与隔离突破•不安全的容器镜像与编排•可信执行环境缺失或配置不当•端侧/边缘操作系统与固件安全 •用户身份验证与授权缺陷•AI应用访问外部资源的身份与权限风险•多租户AI应用中的身份与权限隔离风险•与企业统一身份认证集成风险•多Agent/MCP间访问权限控制•跨控制域的权限管控(至RAG等) 组织与人员风险 自主性带来的其他风险 模型完整性与篡改 •内部人员误用或滥用AI系统•缺乏AI安全意识和技能•过度依赖AI导致关键技能退化 •意外RCE和代码攻击•资源过载•抵赖与不可追踪性•压垮人在回路中•人类操纵•端侧/边缘Agent的物理操纵与干扰 RAG相关数据风险 •模型投毒•模型后门•端侧/边缘模型篡改•模型越狱/规则移除 物理环境安全 •知识库投毒•向量和嵌入弱点•不安全的知识库访问权限 •数据中心/服务器物理安全•边缘/端侧节点物理安全 Agent及MCP应用生态市场治理 物理环境安全 •智能体及MCP服务主体和身份认•智能体及MCP服务安全基线和准入许可•智能体及MCP服务市场持续监督 •数据中心/服务器物理安全•边缘/端侧节点物理安全 人工智能和智能体安全防护整体架构:构建可信任的智能体系统 AI安全治理与可观测性 建⽴可视化的AI资产与风险测绘,⾃动发现智能体资产、模型、⼯具、以及连接的数据源,持续进⾏漏洞检测、权限分析和信誉评估,控制AI基础设施和供应链⻛险。 从“静态策略”迈向“动态行为” 传统安全规则库(如WAF规则)⽆法应对Agent的动态和创造性⾏为,需要引⼊意图和行为分析,理解和监督智能体的⾏为序列和异常模式 构建“可信任”的身份与生态体系 实施AI生态的“零信任”架构,不信任任何组件与输⼊。对⽤户的输⼊、Agent的内部状态、调⽤⼯具、返回的数据进⾏持续验证