行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

大模型和智能体安全风险治理与防护

2025-09-25腾讯表***

AI智能总结

核心观点与风险分析

AI生态软件供应链风险案例

“EchoLeak”：某SaaS办公软件Copilot零点击数据窃取，证实企业级AI助手面临零点击攻击威胁，数据（网盘、文档、邮件等）可被窃取。
“AgentSmith”：LangSmith平台AI供应链攻击，恶意Agent实现敏感信息泄露和中间人攻击，揭示公共智能体/提示仓库的巨大安全风险。
“Living Off AI”：Atlassian JSM通过支持工单进行的隐蔽越权攻击，暴露AI生态中“混淆代理人”问题，身份与权限一致性无法保证。
CVE-2025-58444：MCP Inspector通过XSS实现远程命令执行，将传统XSS攻击升级为对AI本地开发环境的威胁，凸显供应链和AI生成代码安全问题。

AI应用在企业场景中的十大常见安全风险

自建模型平台暴露面过大
恶意利用（Prompt注入攻击）
模型推理劫持（对抗样本攻击）
第三方代码依赖风险（开源模型/库污染）
开源模型滥用（深度伪造与辅助犯罪）
自动化Agent权限滥用误用
样本投毒（数据污染）
模型数据和隐私泄露
AI伦理与偏见放大
代码辅助工具数据泄露（第三方代码辅助工具）

人工智能与大模型的风险组成结构

智能体应用安全：敏感信息泄露、应用开发安全、应用服务风险、业务安全风险。
大模型运行环境安全：开发框架风险、开放数据集及训练工具风险、污染的开放数据集风险。
大模型本体内生安全：推理、训练阶段的数据泄露、供应链安全风险、越狱风险、prompt指令数据泄漏。
大模型基础设施安全：基础设施自身安全性、基础设施运维安全性。

关键问题与攻击方法

认知与行为：大模型越狱攻击方法和威胁模型，包括基于提示工程、跨模态不一致、优化、组合/混合等攻击技术。
生态与治理：智能体交互协议和应用生态风险，如传统漏洞攻击链放大、混淆代理人问题、新的供应链安全风险等。
可信任身份与执行：智能体应用场景带来的复合攻击面威胁，如身份管理一致性缺失、权限提升攻击等。

人工智能风险评估与控制方法框架

AI运行环境与基础设施安全风险：计算/存储资源隔离不当、配额与限制管理不当。
AI治理、伦理与合规风险：治理与责任缺失、AI伦理与偏见放大、模型可解释性不足。
AI智能体与自主系统安全风险：意图破坏与目标操纵、失准与欺骗性行为、工具滥用/智能体劫持。
模型安全与鲁棒性风险：模型参数/架构泄露、模型逆向工程、端侧/边缘模型物理提取。
AI应用与集成安全风险：传统应用安全漏洞、不安全的输出处理、业务逻辑滥用风险。

AI应用身份与权限管理

数据输入/输出安全：提示词注入、敏感信息泄露、输出内容违规、个人隐私泄露。
智能体身份与权限安全：缺乏智能体身份认证、身份欺骗与冒充、权限泄露/滥用。
计算环境安全：数据泄露、未授权访问与数据篡改、操作系统漏洞与配置错误。

智能体交互与生态风险

RAG相关数据风险：模型投毒、模型后门、端侧/边缘模型篡改。
恶意利用与社会影响风险：深度伪造与信息操纵、AI技术滥用于网络攻击、对就业和社会结构的潜在冲击。

AI应用身份与权限管理

组织与人员风险：内部人员误用或滥用AI系统、缺乏AI安全意识和技能。
自主性带来的其他风险：意外RCE和代码攻击、资源过载、抵赖与不可追踪性。

AI应用身份与权限管理

物理环境安全：数据中心/服务器物理安全、边缘/端侧节点物理安全。

AI应用生态市场治理

智能体及MCP服务主体和身份认：智能体及MCP服务安全基线和准入许可、智能体及MCP服务市场持续监督。

人工智能和智能体安全防护整体架构

AI安全治理与可观测性：建立可视化的AI资产与风险测绘，持续进行漏洞检测、权限分析和信誉评估。
从“静态策略”迈向“动态行为”：引入意图和行为分析，理解和监督智能体的行为序列和异常模式。
构建“可信任”的身份与生态体系：实施AI生态的“零信任”架构，持续验证用户输入、Agent内部状态、调用工具、返回数据。

研究结论

AI生态系统中存在多维度安全风险，包括供应链攻击、越权访问、数据泄露、模型篡改等。攻击手段多样化，涵盖提示工程、对抗样本、自动化生成等。需构建可信任的智能体系统，通过AI安全治理、动态行为分析、零信任架构等措施提升防护能力。

2025年9月17日分享人：李滨安全风险治理与防护案例1：“EchoLeak”–某知名SaaS办公软件Copilot零点击数据窃取该漏洞首次证实了针对企业级AI助手的零点击攻击是完全可行的，Copilot可访问的任何数据（包括网盘、共享文档、邮件、应用数据集）都面临被窃取的可能。在AI新形态漏洞的威胁下，提高企业生产力的工具，可能转变为一个潜在的企业窃密活动通道。案例2：“AgentSmith”–LangSmith平台AI供应链攻击隐蔽恶意Agent实现敏感信息泄露和中间人攻击（MITM）创建与发布该攻击揭示了AI⽣态系统中⼀个全新的供应链攻击向量，证明对公共智能体/提示仓库的信任存在巨⼤安全⻛险，攻击者可以利⽤这些平台分发“特洛伊⽊⻢”式的智能体，从⽽危及⽤户的数据和⼯作流安全。 🏢AI生态软件供应链风险案例3：“Living Off AI”–Atlassian JSM通过支持工单进行的隐蔽越权攻击该攻击揭示了AI⽣态系统中普遍存在的“混淆代理⼈”问题，由于LLM和智能体普遍存在替⽤户执⾏操作的权限代理，当在复杂数据和执⾏上下⽂环境中，身份与权限的⼀致性不能保证，导致潜在的越权和滥⽤。案例4：CVE-2025-58444-MCP Inspector通过XSS实现的远程命令执行将传统应用漏洞XSS攻击升级为对AI本地开发环境的威胁 AI世界的攻击不仅针对服务端应⽤，也针对开发者桌⾯，该漏洞将⼀个看似仅限于浏览器的XSS问题，转变为⼀个能够完全控制开发者本地环境的严重威胁。攻击者只需诱骗开发者连接到⼀个恶意服务器，即可窃取源代码、API密钥、植⼊后⻔或在企业内⽹中进⾏横向移动，再次凸显了AI应⽤软件⽣态中普遍存在的供应链和AI⽣成代码安全问题。大模型和智能体应用在企业场景中的十大常见安全风险 01 自建模型平台暴露面过大06 样本投毒（数据污染）模型数据和隐私泄露07 02 恶意利用（Prompt注入攻击） 03 模型推理劫持（对抗样本攻击）08 代码辅助工具数据泄露（第三方代码辅助工具） AI伦理与偏见放大09 第三方代码依赖风险（开源模型/库污染）04 开源模型滥用（深度伪造与辅助犯罪）10 05 自动化Agent权限滥用误用人工智能与大模型的风险组成结构智能体应用安全 •敏感信息泄露风险：越狱攻击输出受控内容；•应用开发安全风险：编码规范、风险开源组件；•应用服务风险：api攻击，web服务攻击、ddos攻击；•业务安全风险：批量注册、恶意引导、内容爬取；大模型运行环境安全 •开发框架风险：框架漏洞(包含组件漏洞)；•开放数据集及训练工具风险；•污染的开放数据集风险；大模型本体内生安全推理训练 •数据泄露的风险(私有数据集、模型文件、个人隐私)；•供应链安全风险：木马后门、组件漏洞；•越狱风险；•prompt指令数据泄漏；大模型基础设施安全 •基础设施自身的安全性：操作漏洞风险、计算资源漏洞风险权限设置不当风险；•基础设施的运维安全性：误操作、违规操作；关键问题一：认知与行为-大模型越狱攻击方法和威胁模型 AI智能应用攻击面 •智能体工具•API接口 •激活值、权重•注意力机制 •结构化标签•解码过程 •用户直接输入•API传输参数 •图像、文本•音频、视频 •RAG系统•API传入模型核心脆弱性 •歧义、隐喻•角色扮演误解 •结构化输出恶意利用•不恰当输出 •编码混淆绕过•过滤机制薄弱 •梯度攻击•黑盒搜索 •对抗扰动•跨模态语义不一致 •元指令覆盖•优先级混乱 2、基于输出结构的攻击 3、针对跨模态不一致的攻击 4、基于优化的攻击 1、基于提示工程的攻击利用计算优化技术自动发现触发不安全行为的对抗性提示关键技术：梯度攻击（GCG）、黑盒优化、遗传算法、通用对抗触发器操纵模型生成结构化输出时的解码约束，迫使生成有害内容关键技术：约束解码攻击（CDA）、恶意JSONSchema、正则表达式约束关键技术：角色扮演（DAN）、指令操纵、输入混淆（Base64/Leetspeak）、上下文操纵、间接提示注入 7、组合/混合攻击 6、自动化生成和模糊测试 8、智能体和工具上下游攻击 5、表征工程攻击结合多种攻击技术，形成更复杂隐蔽的攻击链利用LLM作为决策核心的能力，滥用外部工具和API 直接操纵模型内部神经表征，绕过高层安全机制系统性生成大量测试用例，发现新的越狱模式关键技术：攻击者LLM（PAIR）、遗传算法（GPTFuzzer）、系统化模糊框架关键技术：提示工程+输入混淆、优化攻击+角色扮演、多模态+提示工程关键技术：工具滥用、权限提升、反馈循环操纵、资源消耗关键技术：激活向量操纵（RepE）、安全表征识别与利用关键问题二：生态与治理-智能体交互协议和应用生态风险传统漏洞攻击链放大混淆代理人问题新的供应链安全风险针对AI的新型混合攻击系统性的安全疏忽 MCP等AI交互协议设计初期以“便利”和“易用”为主要考量，缺乏基础安全控制机制经典安全漏洞在AI环境中被显著放大，升级为控制面攻击社区驱动的生态系统缺乏治理，形成信任匮乏的软件供应链结合传统漏洞与AI特性的新型攻击模式，实现语义层面的控制权限传递不一致导致的越权访问和权限滥用 •命令注入（43%实现存在）•SSRF（30%实现存在）•路径遍历（22%实现存在）•SQL注入转提示注入 •工具投毒（ToolPoisoning）•规划线路僭越（LineJumping）•存储式提示注入•级联幻觉攻击•RAG上下文污染 •MCP生态的"漏洞债务"•“木偶”攻击/恶意服务器伪装•“地毯抽拉”攻击(Rug Pull)•跨服务器恶意调用链 •身份管理一致性缺失•权限提升攻击•双向混淆代理人风险•多智能体系统复杂性 •身份认证机制缺失•权限控制不足•缺乏审计追溯能力•默认配置不安全智能体场景下攻击链的变化：关键问题三：可信任身份与执行-智能体应用场景带来新的复合攻击面威胁人工智能风险评估与控制方法框架 AI运行环境与基础设施安全风险(AlRuntime Environment&Infrastructure Security) AI治理、伦理与合规风险(AlGovernance, Ethics &ComplianceRisks) AI智能体与自主系统安全风险(AlAgent & AutonomousSystemSecur ity) 模型安全与鲁棒性风险(ModelSecurity & Robustness) 数据安全与隐私风险(Data Security& PrivacyRisks) AI应用与集成安全风险(AlApplication & IntegrationSecurity) •计算/存储资源隔离不当•配额与限制管理不当资源管理与隔离风险治理与责任缺失训练数据安全 AI应用自身风险智能体核心能力安全模型窃取与泄露 •缺乏AI安全治理框架和责任主体•AI伦理与偏见放大•模型可解释性不足导致风险追溯困难•端侧/边缘数据收集的透明度与告知同意 •数据污染/投毒•训练数据隐私泄露•数据来源与合规性风险•数据偏见与歧视 •意图破坏与目标操纵•失准与欺骗性行为•记忆投毒•工具滥用/智能体劫持 •模型参数/架构泄露•模型逆向工程•端侧/边缘模型物理提取 •传统应用安全漏洞•不安全的输出处理•业务逻辑滥用风险运行时依赖与库安全 •AI框架漏洞•第三方库与依赖组件漏洞•序列化/反序列化漏洞外部组件或服务集成风险智能体身份与权限安全数据输入/输出安全法律法规遵从风险模型可用性与鲁棒性 •提示词注入/恶意利用•敏感信息泄露(通过交互)•输出内容违规/有害•个人隐私泄露(通过生成内容)•端侧/边缘传感器数据投毒/篡改•端侧/边缘环境中的隐私泄露 •缺乏智能体身份认证•身份欺骗与冒充•权限泄露/滥用•非人类身份(NHI)管理风险•端侧/边缘Agent凭证硬编码与蔡路 •对抗性攻击/模型推理劫持•模型规避(绕过过滤/审查规则)•模型拒绝服务•端侧/边缘计算资源耗尽攻击•针对端侧模型的物理对抗攻击 •违反数据保护法规•违反特定行业AI应用法规和标准•知识产权侵权风险•跨境数据流动合规 •API安全风险•不安全的插件/工具集成•过度代理权/不安全的函数调用模型上下文协议(MCP)风险•端侧/边缘的接口安全缺陷网络环境安全 •开放的暴露面和攻击面•网络隔离与访问控制不足•不安全的网络协议与配置•分布式拒绝服务攻击恶意利用与社会影响风险智能体交互与生态风险模型行为风险 •深度伪造与信息操纵•AI技术滥用于网络攻击、欺诈等•对就业和社会结构的潜在冲击 •智能体通信投毒•多智能体系统中的流氓智能体•针对多智能体系统的人类攻击•边缘节点间Agent通信安全数据存储与传输安全 •AI幻觉•模型偏见与伦理风险•模型漂移•过度自信/校准不足 AI应用身份与权限管理计算环境安全 •数据泄露(存储/传输)•未授权访问与数据篡改•端侧/边缘数据存储安全•端-边-云通信劫持与窃听 •操作系统漏洞与配置错误•虚拟化/容器逃逸与隔离突破•不安全的容器镜像与编排•可信执行环境缺失或配置不当•端侧/边缘操作系统与固件安全 •用户身份验证与授权缺陷•AI应用访问外部资源的身份与权限风险•多租户AI应用中的身份与权限隔离风险•与企业统一身份认证集成风险•多Agent/MCP间访问权限控制•跨控制域的权限管控(至RAG等) 组织与人员风险自主性带来的其他风险模型完整性与篡改 •内部人员误用或滥用AI系统•缺乏AI安全意识和技能•过度依赖AI导致关键技能退化 •意外RCE和代码攻击•资源过载•抵赖与不可追踪性•压垮人在回路中•人类操纵•端侧/边缘Agent的物理操纵与干扰 RAG相关数据风险 •模型投毒•模型后门•端侧/边缘模型篡改•模型越狱/规则移除物理环境安全 •知识库投毒•向量和嵌入弱点•不安全的知识库访问权限 •数据中心/服务器物理安全•边缘/端侧节点物理安全 Agent及MCP应用生态市场治理物理环境安全 •智能体及MCP服务主体和身份认•智能体及MCP服务安全基线和准入许可•智能体及MCP服务市场持续监督 •数据中心/服务器物理安全•边缘/端侧节点物理安全人工智能和智能体安全防护整体架构：构建可信任的智能体系统 AI安全治理与可观测性建⽴可视化的AI资产与风险测绘，⾃动发现智能体资产、模型、⼯具、以及连接的数据源，持续进⾏漏洞检测、权限分析和信誉评估，控制AI基础设施和供应链⻛险。从“静态策略”迈向“动态行为” 传统安全规则库（如WAF规则）⽆法应对Agent的动态和创造性⾏为，需要引⼊意图和行为分析，理解和监督智能体的⾏为序列和异常模式构建“可信任”的身份与生态体系实施AI生态的“零信任”架构，不信任任何组件与输⼊。对⽤户的输⼊、Agent的内部状态、调⽤⼯具、返回的数据进⾏持续验证

点击免费查看完整报告