您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:大模型和智能体安全风险治理与防护 - 发现报告

大模型和智能体安全风险治理与防护

2025-07-09腾讯d***
AI智能总结
查看更多
大模型和智能体安全风险治理与防护

大模型和智能体安全风险治理与防护 分享人:李滨2025年7月8日 AI技术带来新的生产驱动力,企业数字化进入“大模型时代” AI超越图灵测试的人工智能标准,使机器开始像“人”一样与用户交流。以大模型生成技术为核心的人工智能正在成为下一轮经济增长的关键动力,也为解决产业痛点带来了全新的思路。 大模型在企业应用场景中的十大常见安全风险 自建模型平台暴露面过大06 01 模型数据和隐私泄露07 恶意利用(Prompt注入攻击)02 模型推理劫持(对抗样本攻击)08 03 代码辅助工具数据泄露(第三方代码辅助工具) AI伦理与偏见放大09 第三方代码依赖风险(开源模型/库污染) 04 自动化Agent权限滥用误用05 开源模型滥用(深度伪造与辅助犯罪)10 人工智能与大模型的风险组成结构 大模型应用的安全风险结构 大模型应用安全 •敏感信息泄露风险:越狱攻击输出受控内容;•应用开发安全风险:编码规范、风险开源组件;•应用服务风险:api攻击,web服务攻击、ddos攻击;•业务安全风险:批量注册、恶意引导、内容爬取; 大模型运行环境安全 •开发框架风险:框架漏洞(包含组件漏洞);•开放数据集及训练工具风险;•污染的开放数据集风险; 大模型本体内生安全 推理 •数据泄露的风险(私有数据集、模型文件、个人隐私);•供应链安全风险:木马后门、组件漏洞;•越狱风险;•prompt指令数据泄漏; 大模型基础设施安全 •基础设施自身的安全性:操作漏洞风险、计算资源漏洞风险权限设置不当风险;•基础设施的运维安全性:误操作、违规操作; 大模型越狱攻击方法和威胁模型 MCP协议和应用生态风险:从传统漏洞到AI控制 新的供应链安全风险 混淆代理人问题 系统性的安全疏忽 针对AI的新型混合攻击 传统漏洞攻击链放大 权限传递不一致导致的越权访问和权限滥用 MCP协议设计初期以“便利”和“易用”为主要考量,缺乏基础安全控制机制 社区驱动的生态系统缺乏治理,形成信任匮乏的软件供应链 结合传统漏洞与AI特性的新型攻击模式,实现语义层面的控制 经典安全漏洞在AI环境中被显著放大,升级为控制面攻击 Ø身份管理一致性缺失Ø权限提升攻击Ø双向混淆代理人风险Ø多智能体系统复杂性 Ø工具投毒(Tool Poisoning)Ø规划线路僭越(Line Jumping)Ø存储式提示注入Ø级联幻觉攻击ØRAG上下文污染 Ø身份认证机制缺失Ø权限控制不足Ø缺乏审计追溯能力Ø默认配置不安全 ØMCP生态的"漏洞债务"Ø“木偶”攻击/恶意服务器伪装Ø“地毯抽拉”攻击(RugPull)Ø跨服务器恶意调用链 Ø命令注入(43%实现存在)ØSSRF(30%实现存在)Ø路径遍历(22%实现存在)ØSQL注入转提示注入 大模型安全治理框架安全治理:腾讯大模型安全治理框架 大模型安全防护整体架构 围绕大模型的生命周期,根据不同阶段的风险制定对应安全防护措施和策略 边界与API安全:腾讯LLM-WAF大模型智能安全防护网关 LLM-WAF为专为大语言模型设计的智能安全防护网关,提供多模型、多场景、高并发环境下的全链路防护能力支持实时检测并拦截针对大模型的算力滥用、提示词攻击及数据泄露风险,助力企业构建可信、稳定、可持续的大模型服务生态。 内部实践孵化:云安全中心AI-SPM主要功能风险态势感知:腾讯AI-SPM,大模型安全态势感知系统 腾讯AI-SPM,大模型攻击面和漏洞管理系统,保护大模型基础设施运行环境,及时发现和处置安全风险 资产测绘 组件识别(50+) •网络指纹测绘 •主机层指纹匹配 资产关联 •资产的暴露状态与路径•资产的全量风险 大模型风险检测 主机安全 •大模型组件的漏洞检测(200+)•组件的配置风险检测 网络扫描 •POC形式的精准检测(20+)•基于版本的漏洞识别(200+) 大模型网络攻击示警 •针对大模型组件漏洞的攻击行为(6类漏洞) 内部实践孵化:云安全中心AI-SPM主要功能智能体身份管理:以统一身份为核心,构建身份安全访问控制 腾讯天御大模型安全网关,构建企业内部智能体应用和MCP服务的统一身份和权限管控 统一身份缺失导致安全缺口 在智能体等大模型应用实践中,统一的身份一直是缺失的一环。致使越权访问、非法请求、数据泄露等诸多问题频发。同时合理的权限控制也是防止投毒等新型攻击最终生效的有效手段。 AgentID 基于大模型安全网关,构建以统一身份为核心的访问控制,将有效释放权限类的安全风险。 大模型时代的身份范围扩大:人、智能体、服务、工具 人的身份:MFA、token、手机号、设备指纹、IP。实人认证、本人认证、好人认证AI Agent的身份:有限授权token,AgentCards。Agent互认证、互发现、协作任务服务提供者的身份:AKSK,ServerList,能力清单。访问授权、Server代理、动态路由远程服务(tools)的身份:远端身份验证,toolslist,数据权限。调用授权、数据授权。 内部实践孵化:云安全中心AI-SPM主要功能天御大模型安全网关:以规则+模型为核心,构建身份、流量、工具、决策多重防线 腾讯天御大模型安全网关,一站式管控企业智能应用的身份管理、防AI攻击、决策和执行安全问题 体系化安全能力 基于传统安全中的经验积累,和大模型实践中,体系化的安全建设探索,构建的大模型安全网关产品,可以实现大模型应用落地中统一的防护。 统一安全水位 安全网关把不同参与角色、不同的业务系统的安全水位拉到同一高度,防止某个短板造成的安全破口 大模型安全中枢 作为企业大模型应用落地的安全中枢,连接智能体、模型与服务,实现统一治理与高效协同,并通过多层次防护机制解决AI规模化应用中的关键风险。 分阶段控制风险 大模型安全网关通过构建以规则和模型为核心的三道安全防线,兼顾执行效率、风险识别率、误杀率,分阶段释放安全风险。 共享数据和能力 从大模型应用的不同阶段采集的不同数据组成了风险判断的统一依据,并在不同的环节传递风险标识,让大模型安全网关具备了全局视野,可以更准确的识别风险。 内容安全:天御内容风控平台,大模型的内容安全实践 接口输入、内容预处理、模型识别、策略辅助、平台调度分析、人工标注运营共6个维度为大模型的训练和推理提供有效支撑 攻防对抗与安全情报:大模型安全RedTeam对抗实践 以腾讯的安全专家能力为基础,深度了解大模型的原理和机制,建立针对大模型的安全测试方法,主动发现大模型及生态存在的(漏洞)风险,为混元的全生命周期保障护航 目标系统 LLM渗透测试侧重于测试和保护大型语言模型(LLM)和自然语言处理(NLP)系统。 漏洞和攻击向量 LLM系统中的漏洞和攻击向量是这些系统中使用的技术所独有的。示例包括提示注入、模型提取。 测试技术和工具 LLM渗透测试需要专门的技术和工具。示例包括OpenAt-tack和TensorFlowPr-ivacy。 技能和知识 为了有效地进行LLM渗透测试,需要对NLP、语言模型有深入的了解。 大模型安全RedTeam:大模型安全性测试基准 腾讯AI RedTeam建设,聚焦实战攻防与AI安全研究 以腾讯的安全专家能力为基础,深度了解大模型的原理和机制,建立针对大模型的安全测试方法,主动发现大模型及生态存在的(漏洞)风险,为大模型的全生命周期保障护航 腾讯AI安全团队 对话篡改漏洞 拒绝服务漏洞 数据标注平台 机器学习平台 模型评测平台 算力平台 感谢聆听