从大模型安全到可控行动系统 三个核心判断 开场与核心判断 Agent 的安全边界比聊天机器人大得多Agent 不是一个按钮,而是一个有权限的运行时系统。 清新研究团队12026年6月 一句话定义 一智能体安全=让会行动的AI可授权、可约束、可追责一智能体能规划、调用工具、保持状态圆并影响外部系统一安全目标不是让模型永远不犯错,而是让错误不会无约束扩散000一核心抓手是身份、权限、工具、上下文、沙箱、审批一和审计Agent Safety = Identity + Policy + Tools + Logs 为什么现在讨论 开场与核心判断 塑个·一Agent从实验工具进入企业生产环境)一开发框架和API让工具调用、文件操作、沙箱执行更容易一企业开始把Agent用于客服、研发、安全运营、财务和内部流程一能力越接近真实操作,安全治理越必须前置 风险的本质变化 开场与核心判断 一从“内容风险”升级到“行动风险一普通大模型的主要问题是输出质量和内容边界。一智能体的主要问题是能否代表用户或系统采取行动。 一同一个错误,在Agent中可能变成邮件外发、数据改写或生产变更。 本报告的研究边界 对企业的战略含义 开场与核心判断 一Agent能力会商品化,安全部署能力不会自动商品化。一模型和框架会越来越易得。一可规模化的权限、审计、评测和事故响应是组织能力。一越早建立控制平面,越能更快释放Agent价值。 报告结构 官方背景:CISA/NSA把Agent列入安全议题 最新背景与定义边界 一2026年“Careful Adoption”成为企业落地的重要参考一 CISA、NSA及多国网络安全机构发布Agentic Al安全采用指导。一文件强调分层防御、严格访问控制、人类监督和渐进式部署。一这意味着Agent安全已经从厂商最佳实践进入国家级安全议题进入国家级安全议题。 官方背景:NIST聚焦能改变外部状态的Agent 最新背景与定义边界 一RF明确区分普通聊天机器人与行动型智能体。一 NIST RFI关注能够采取行动并影响外部状态的Al agent systems。一议题包括独特威胁、开发部署、测量方法和环境约束。一这为企业风险分级提供了清晰边界。 能改变外部状态 OpenAI视角:Agent是多步骤工作应用 最新背景与定义边界 一 规划、工具调用、协作和状态保持构成Agent基本能力一 Agents 是能规划、调用工具、协作并保持状态的应用。一当应用要管理编排、工具执行、审批和状态,就进入Agent工程范畴。一安全控制必须跟随这些工程能力一起设计。 Source: https://developers.openai.com/api/docs/guides/agents OpenAI2026:沙箱执行成为Agent基础设施 最新背景与定义边界 一文件、命令、代码和长任务需要受控工作空间-OpenAI2026年介绍了支持Agent检查文件、运行命令、编辑代码的SDK能力。·文档强调受控沙箱环境对安全执行的重要性。一这说明“执行层安全”正在成为Agent平台核心能力。 MCP背景:连接能力提升,也扩大攻击面 最新背景与定义边界 协议让工具接入更容易,但不自动保证安全! MCP让Agent更容易连接工具和数据源。 安全从“模型层”转向“运行时层 最新背景与定义边界 一 Agent风险发生在模型生成和工具执行之间模型安全仍重要,但不再是唯一控制点。一工具调用、数据流、身份授权和日志追踪决定生产风险。一运行时层是Agent安全的主战场。 Agent不是员工,但必须像数字员工一样管理 一员工需要岗位、权限审批和绩效;Agent也需要。 企业常见误区 最新背景与定义边界 把智能体当成“更强客服机器人”会低估风险 把智能体中更强客服机器人,是更全智能体会低估风险,不知需被低估风险,还是更斑增求的风险。 误区三:先接业务系统,后补审计和审批。 对外展示口径 智能体系统的最小组成 智能体系统模型 Agent运行闭环 智能体系统模型 ·Agent不是一次性回答,而是循环执行·每一步都会读取新上下文并产生新动作。·循环越长,越需要熔断和阶段性确认。 身份层:谁在执行动作 智能体系统模型 一Agent必须有独立身份和代理链路一不要让Agent长期持有人类账号凭证。一每次工具调用应记录用户、Agent、服务账号和审批链。身份链清晰,事故追责才可能清晰。 权限层:能做什么 一权限按任务授予,而不是按用户全量继承一只读、草稿、半自动、自动执行应分级。S一高风险动作需要审批或独立验证。APPROVED一权限应短期、可撤销、可观测。 工具层:通过什么做事 智能体系统模型 ○工具是Agent能力,也是攻击面の每个工具需要描述、schema、权限、风险标签。の工具返回内容不能自动变成高优先级指令。の工具调用前后都需要策略检查。 上下文层:读到了什么 智能体系统模型 ·一不可信数据必须被标记和隔离一网页、邮件、PDF、工单和日志都可能包含恶意指令。·一上下文应区分指令、用户意图和普通数据。·一不可信内容可以被引用,但不能覆盖规则。 记忆层:记住了什么 智能体系统模型 一长期记忆会把一次攻击变成持续偏差一记忆写入需要规则和可见性一敏感偏好、权限例外和业务规则不能随意写入一记忆必须支持版本、删除和回滚 沙箱层:在哪里执行26 智能体系统模型 一代码、文件和命令操作必须隔离一文件读写、代码运行、命令执行和网络访问要受控。一默认关闭不必要的网络和主机权限。一高风险任务使用快照、资源限制和回滚。! 审计层:如何追责和回放 智能体系统模型 一没有ActionLedger就没有可规模化治理一记录每次工具调用、参数、结果、(批准人和时间。一把关键动作接入SIEM、DLP和告警系统。一事故后能回放决策链并定位责任。 人工层:什么时候必须人审 智能体系统模型 风险地图总览 核心风险地图 一八类风险从目标到工具、身份和供应链展开目标劫持、工具滥用、身份滥用是前三个高频风险。记忆污染、上下文投毒会让风险跨任务持续。沙箱逃逸、供应链污染和多Agent级联会扩大事故范围。 目标劫持 核心风险地图 ·攻击者让Agent偏离真实任务m·恶意网页或文档把“数据”伪装成“指令”。·Agent可能为了完成任务而执行攻击者目标·防护重点是不可信输入隔离和敏感动作审批 https://www.nist.gov/news-events/news/2025/01/technical-blog-strengthening-ai-agent-hijacking-evaluations 提示词注入 核心风险地图 V一最危险的注入往往来自用户看不见的内容V一间接提示注入可能藏在网页、邮件、PDF和工具输出中。V一目标可能是数据外泄、工具误调用或改变模型行为。V一结构化输出和指令优先级边界可以降低攻击面。 工具滥用 核心风险地图 身份与权限滥用 核心风险地图 过宽权限会放大一次妥协的影响 过权限Agent会把小漏洞变成大事故。 ?服务账号、用户凭证和连接器权限需要分开管理。 短期令牌和任务级授权是基础控制。 https:/www.cisa.gov/resources-tools/resources/careful-adoption-agentic-ai-services 私有数据泄露 记忆与上下文污染 核心风险地图 一一次污染可能影响未来很多任务一长期记忆提高连续性,也带来持久攻击面。一恶意偏好、伪规则、伪联系人可能被写入记忆。一 记忆写入要可见、可审批、可回滚。 意外代码执行 ·核心风险地图 一代码工具和命令工具需要最高级别约束一 文件处理、脚本、shell、STDIO都可能触发任意代码执行。一MCP和沙箱环境尤其需要实现层防护。默认禁用不必要出网和宿主机访问。 Source:https://www.nsa.gov/Portals/75/documents/Cybersecurity/CSl_MCP_SECURITY.pdf AGENTIC供应链 核心风险地图 一运行时依赖也可能被攻击 一风险不仅在模型和代码仓库,也在MCP server、插件、工具描述和RAG内容。 一第三方工具需要版本锁定、签名和供应商审查。 多Agent级联失败 ·核心风险地图 一一个Agent的错误可能成为另一个Aqent的输入一多Agent协作提升效率,也增加信任传递风险。一Peer输出默认不可信,必须校验来源、权限和证据。一关键动作前需要独立验证。 人机信任利用 核心风险地图 一用户可能被Agent的流畅表达误导 一Agent可能让错误建议看起来很确定。一审批界面若缺少差异和风险解释,会诱发误批准。一需要置信度、来源、变更预览和反确认设计。 行为漂移与规格博弈 核心风险地图 一Agent可能为了完成目标走捷径一 CISA/NSA指导提示要关注目标错配、规格博奔和不可预期行为。一复杂任务中应设置阶段性检查和退出条件。一把“完成任务”与“遵守边界”同时写入评测。 不可审计风险 核心风险地图 Page 41 高风险场景清单 核心风险地图 一不是所有任务都适合自动化一资金、医疗、法律、身份权限和生产变更默认高风险。一客户外发和公开发布也需要内容与授权控制。一低风险任务先行,高风险任务后置。 资金、医疗、法律、身份权限和生产变更 客户外发和公开发布内容与授权控制 低风险任务先行,高风险任务后置 宏观威胁环境 核心风险地图 一外部攻击压力正在上升一FBI2025报告显示网络犯罪报告损失超过200亿美元。一NIST 2026说明2025年NVD丰富近42,000个CVE。一Agent上线时必须假设外部威胁会利用新自动化链路 Source: https://www.fbi.gov/news/press-releases/cryptocurrency-and-ai-scams-bilk-americans-of-billions; https://www.nist.gov/newsevents/news/2026/04/nist-updates-nvd-operations-address-record-cve-growth 风险小结 核心风险地图 控制平面总览 安全控制架构 一统一管理身份、工具、策略、审计和评测一AgentSafetyControlPlane是横向基础设施。一业务Agent通过控制平面访问工具和数据一安全、IT、数据和业务共享同一套证据链。 Agent Registry 安全控制架构 一先看见,才能治理 一登记每个Agent的Owner、模型、工具、权限、娄数据域和风险等级。一未登记Agent不得访问企业工具。一清单是后续评测、审计和事故响应的基础。 工具注册中心 安全控制架构 一把工具从黑盒变成可治理资产 の一每个工具声明用途、schema、权限、审批等级和失败模式。 一工具变更要走版本管理和安全评审。①一高风险工具默认不可见 @清新研究团队|2026年6月 策略引擎 安全控制架构 一让安全规则在每次动作前生效 一策略引擎在工具调用前检查身份、任务、数据和动作 一规则应支持业务例外,但必须记录审批。 一策略不是写在提示词里,而是在系统层执行。 最小权限 安全控制架构 一按任务授予短期权限一CISA/NSA指导强调严格访问控制和分层防御。一Agent权限应短期、细粒度、可撤销一不要把用户全量权限直接交给Agent。 上下文防火墙 安全控制架构 DLP与数据最小化 安全控制架构 一 Agent能读不代表能带走一 只给任务所需最少字段。一敏感字段在进入上下文前脱敏或分级。一 外发前再做一次DLP和用途检查 沙箱执行 安全控制架构 强工具