安全研究所钮艳 1.1研究背景及意义 人工智能加速落地,安全风险日益凸显,已成为制约产业健康发展的突出短板 “龙虾”存在安全隐患 前沿模型被紧急叫停 Skill安全缺陷突出 2026年6月,Anthropic发布的旗舰模型Fable 5和Mythos 5上线仅三日,就因存在严重安全隐患,被美商务部以国家安全为由实施紧急出口管制,最终被迫全面暂停相关服务。 Skill(技能)是人工智能执行特定任务的 模 块 化 单 元 , 在OpenClaw、Hermes等智能体中广泛应用。经测评,54.7%存在安全缺陷,可能引发网络攻击、数据泄露和系统瘫痪。 曾爆火的OpenClaw (“龙虾”)智能体,因存在提示词注入、远程代码执行、恶意插件投毒等严重安全隐患,工信部、国家互联网应急中心等部门发布安全提醒,部分企业明令禁用。 1.1研究背景及意义 全球主要经济体强化人工智能领域政策部署,纷纷将人工智能上升为国家战略,抢占科技竞争和未来发展制高点 人工智能安全已从 1.2主要研究内容 研究体系化安全检测与风险评估方法,实现从检测到评估、再到修复量化决策的全链条能力 多层级安全检测7层漏洞分类体系 多环节风险评估解决 跨层级安全量化解决 全生命周期·风险量化定级 跨层传导·防御成本效益分析 打造人工智能系统的 2.1.1人工智能安全缺陷及漏洞分类体系 2.1.2人工智能安全漏洞风险检测工具 2.权限提升攻击 任命AI为“无限制助手”并发起提权请求 7.指令遗忘攻击 8.上下文长度攻击 利用冗长无关内容稀释和掩盖恶意指令 通过新指令覆盖让模型忽略原有安全约束 2.1.2人工智能安全漏洞风险检测工具 n提示词注入居人工智能安全风险首位 n技术门槛低、危害性大:攻击者仅需输入精心设计的自然语言即可绕过安全防护,导致越权访问、敏感信息泄露、恶意内容生成等严重后果。 n产业界高度重视:OpenAI、谷歌、Anthropic等头部厂商均将提示词注入防御列为安全建设的核心。 2.1.2人工智能安全漏洞风险检测工具 2.1.3工业智能体Skills安全测评 供应链安全风险 权限过度配置 内容安全风险 安全能力缺陷:大量Skills面临提示词注入、代码安全等安全风险,暴露出当前Skills生态整体安全基线较低的问题。 过多权限申请:多数Skills会申请过多权限,使得Skills能够以最高权限实施持久化控制,对用户构成凭证窃取、系统破坏风险。 底层代码漏洞:Skills底层代码漏洞频发,高危漏洞突出,易造成后门植入、网络攻击等安全威胁。 过度授权和信任模型缺陷:部分Skills框架未遵守最小授权原则,Skills脚本默认拥有当前用户全部系统权限,可进行本地文件读写、系统命令执行及全网访问;同时,该框架“一次授权、持续生效”的信任模型存在安全隐患。 提示词注入隐患:伪造系统规则、冒充管理权限等恶意指令大多隐藏在常用文档中不易发现,可造成越权操控AI、窃取系统敏感信息和文件越界访问等问题,威胁用户系统安全。 准入审查机制不足:官方Skills市场缺少严格身份核验机制和Skills前置审计,单账号即可批量投递数百个恶意包实施“供应链投毒” 构建全链条Skill安全治理体系,筑牢智能体安全防线 2.1.4人工智能安全漏洞库与验证能力 2.2.1人工智能系统多环节安全风险评估框架 国家标准 政策规范 行业标准 团体标准 《人工智能风险管理能力评估》《人工智能安全治理系统风险管理能力要求》(在研)《网络安全技术人工智能计算平台安全框架》《网络安全技术人工智能生成合成内容标识方法》《网络安全技术生成式人工智能服务安全基本要求》…… 《生成式人工智能服务管理暂行办法》《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《新一代人工智能伦理规范》《科技伦理审查办法(试行)》…… 《人工智能通用大模型合规管理体系指南》《生成式人工智能数据应用合规指南》《生成式人工智能个人信息保护技术要求》《生成式人工智能模型训练合规技术规范》…… 《电信和互联网人工智能数据安全评估方法》(在研)《信息通信行业人工智能算法安全评估指南》(在研)《电信网和互联网大规模预训练模型安全评测指标和方法》(在研)《电信网和互联网安全大模型测评指标及方法网络安全领域》(在研)《生成式人工智能网络安全产品应用技术要求和评估方法》(在研)…… 2.2.2人工智能系统多环节安全风险评估框架 对AI系统技术体系架构进行拆解,评估不同技术领域安全风险。 对AI系统从设计到运维全生命周期进行拆分,评估各阶段安全风险。 2.2.3人工智能系统多环节安全风险评估框架 2.2.4人工智能系统多环节安全风险评估框架 宏观安全维度,包括基础架构安全、数据安全、模型算法安全、应用安全对一级指标具体化,对应具体的安全风险 2.2.5人工智能系统多环节安全风险评估框架 2.3.1人工智能系统跨层级动态安全量化模型 2.3.1人工智能系统跨层级动态安全量化模型 Ø痛点:风险跨层耦合,传播路径复杂Ø挑战:缺乏统一量化标准,引发资源配置低效 2.3.2三大模型形成量化闭环 2.3.3案例验证:CVE-2024-0132(英伟达高危漏洞) 安全左移 威胁在层间快速扩散 3.主要研究成果