行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

智能体安全研究报告：从大模型安全到可控行动系统

信息技术 2026-06-09 - 清新研究团队周振

核心判断

Agent 安全边界比聊天机器人大得多：Agent 是有权限的运行时系统，能规划、调用工具、保持状态并影响外部系统，安全目标不是让模型不犯错，而是让错误不无约束扩散。
安全抓手：身份、权限、工具、上下文、沙箱、审批和审计。
风险本质变化：从“内容风险”升级到“行动风险”，Agent 的主要问题是能否代表用户或系统采取行动。
企业战略含义：Agent 能力会商品化，但安全部署能力不会自动商品化，可规模化的权限、审计、评测和事故响应是组织能力，越早建立控制平面，越能更快释放 Agent 价值。

官方背景与定义边界

CISA/NSA：将 Agent 列入安全议题，强调分层防御、严格访问控制、人类监督和渐进式部署，“Careful Adoption”成为企业落地的重要参考。
NIST：明确区分普通聊天机器人与行动型智能体，关注能改变外部状态的 Agent systems，为企业风险分级提供清晰边界。
OpenAI：Agent 是多步骤工作应用，规划、工具调用、协作和状态保持构成 Agent 基本能力，沙箱执行成为 Agent 基础设施。
MCP 背景：连接能力提升也扩大攻击面，协议让工具接入更容易，但不自动保证安全！

安全从“模型层”转向“运行时层”

Agent 风险发生在模型生成和工具执行之间，工具调用、数据流、身份授权和日志追踪决定生产风险，运行时层是 Agent 安全的主战场。
Agent 不是员工，但必须像数字员工一样管理：需要岗位、权限审批和绩效。

企业常见误区

把智能体当成“更强客服机器人”会低估风险。
忽视工具调用和数据操作的风险。
先接业务系统，后补审计和审批。

智能体系统的最小组成

Agent 运行闭环：Agent 不是一次性回答，而是循环执行，每一步都会读取新上下文并产生新动作，循环越长，越需要熔断和阶段性确认。
身份层：Agent 必须有独立身份和代理链路，每次工具调用应记录用户、Agent、服务账号和审批链。
权限层：权限按任务授予，而不是按用户全量继承，只读、草稿、半自动、自动执行应分级，高风险动作需要审批或独立验证。
工具层：每个工具需要描述、schema、权限、风险标签，工具返回内容不能自动变成高优先级指令。
上下文层：不可信数据必须被标记和隔离，上下文应区分指令、用户意图和普通数据。
记忆层：长期记忆会把一次攻击变成持续偏差，记忆写入需要规则和可见性，记忆必须支持版本、删除和回滚。
沙箱层：代码、文件和命令操作必须隔离，默认关闭不必要的网络和宿主机访问。
审计层：记录每次工具调用、参数、结果、（批准人和时间，事故后能回放决策链并定位责任。
人工层：高风险动作必须停下来审批，审批记录进入 Action Ledger。

核心风险地图

八类风险：目标劫持、工具滥用、身份滥用、记忆污染、上下文投毒、沙箱逃逸、供应链污染和多 Agent 级联失败。
高风险场景：资金、医疗、法律、身份权限和生产变更，客户外发和公开发布，低风险任务先行，高风险任务后置。
宏观威胁环境：外部攻击压力正在上升，FBI 2025 报告显示网络犯罪报告损失超过 200 亿美元，NIST 2026 说明 2025 年 NVD 丰富近 42,000 个 CVE。

控制平面总览

统一管理：身份、工具、策略、审计和评测，AgentSafetyControlPlane 是横向基础设施。
Agent Registry：登记每个 Agent 的 Owner、模型、工具、权限、数据域和风险等级。
工具注册中心：每个工具声明用途、schema、权限、审批等级和失败模式。
策略引擎：在工具调用前检查身份、任务、数据和动作。
最小权限：按任务授予短期权限。
上下文防火墙：DLP 与数据最小化。
沙箱执行：强工具必须在隔离环境中运行。
人工审批门：高风险动作必须停下来审批。
Action Ledger：记录任务目标、上下文来源、工具调用、参数、结果和批准人。

评测总览

注入红队：模拟网页、邮件、PDF 和工具输出中的恶意指令。
工具调用评测：每个工具都要有安全测试。
数据泄露评测：测量外发、摘要、日志和工具传输中的泄露。
记忆污染评测：构造含敏感字段的上下文和诱导请求。
沙箱逃逸评测：代码工具必须承受对抗测试。
运行监控：监控工具调用频率、异常拒绝、数据外发和高风险审批。
事故响应：建立事故响应机制。

治理模型

风险分级：不同 Agent 进入不同上线通道，数据敏感度和动作不可逆性共同决定风险等级。
安全开发流程：建立安全开发流程。
采购与供应商管理：审查第三方 Agent 的模型、数据处理、工具权限、日志可得性和事故通知。
组织能力：Agent 安全需要跨团队协同。

成熟度模型

建立成熟度模型评估 Agent 安全能力。

90 天和 180 天路线图

90 天目标：形成 Agent 安全控制平面，核心 Agent 接入统一控制平面。
180 天目标：高风险场景有独立评估和事故演练，安全指标纳入业务 Agent 绩效。

最终判断

有了权限、工具、沙箱和审计，Agent 才能进入生产。
安全不是 Agent 的刹车，而是规模化的发动机，没有安全控制，Agent 只能停留在小范围实验。

从大模型安全到可控行动系统三个核心判断开场与核心判断 Agent 的安全边界比聊天机器人大得多Agent 不是一个按钮，而是一个有权限的运行时系统。清新研究团队12026年6月一句话定义一智能体安全=让会行动的AI可授权、可约束、可追责一智能体能规划、调用工具、保持状态圆并影响外部系统一安全目标不是让模型永远不犯错，而是让错误不会无约束扩散000一核心抓手是身份、权限、工具、上下文、沙箱、审批一和审计Agent Safety = Identity + Policy + Tools + Logs 为什么现在讨论开场与核心判断塑个·一Agent从实验工具进入企业生产环境）一开发框架和API让工具调用、文件操作、沙箱执行更容易一企业开始把Agent用于客服、研发、安全运营、财务和内部流程一能力越接近真实操作，安全治理越必须前置风险的本质变化开场与核心判断一从“内容风险”升级到“行动风险一普通大模型的主要问题是输出质量和内容边界。一智能体的主要问题是能否代表用户或系统采取行动。一同一个错误，在Agent中可能变成邮件外发、数据改写或生产变更。本报告的研究边界对企业的战略含义开场与核心判断一Agent能力会商品化，安全部署能力不会自动商品化。一模型和框架会越来越易得。一可规模化的权限、审计、评测和事故响应是组织能力。一越早建立控制平面，越能更快释放Agent价值。报告结构官方背景：CISA/NSA把Agent列入安全议题最新背景与定义边界一2026年“Careful Adoption”成为企业落地的重要参考一 CISA、NSA及多国网络安全机构发布Agentic Al安全采用指导。一文件强调分层防御、严格访问控制、人类监督和渐进式部署。一这意味着Agent安全已经从厂商最佳实践进入国家级安全议题进入国家级安全议题。官方背景：NIST聚焦能改变外部状态的Agent 最新背景与定义边界一RF明确区分普通聊天机器人与行动型智能体。一 NIST RFI关注能够采取行动并影响外部状态的Al agent systems。一议题包括独特威胁、开发部署、测量方法和环境约束。一这为企业风险分级提供了清晰边界。能改变外部状态 OpenAI视角：Agent是多步骤工作应用最新背景与定义边界一规划、工具调用、协作和状态保持构成Agent基本能力一 Agents 是能规划、调用工具、协作并保持状态的应用。一当应用要管理编排、工具执行、审批和状态，就进入Agent工程范畴。一安全控制必须跟随这些工程能力一起设计。 Source: https://developers.openai.com/api/docs/guides/agents OpenAI2026：沙箱执行成为Agent基础设施最新背景与定义边界一文件、命令、代码和长任务需要受控工作空间-OpenAI2026年介绍了支持Agent检查文件、运行命令、编辑代码的SDK能力。·文档强调受控沙箱环境对安全执行的重要性。一这说明“执行层安全”正在成为Agent平台核心能力。 MCP背景：连接能力提升，也扩大攻击面最新背景与定义边界协议让工具接入更容易，但不自动保证安全！ MCP让Agent更容易连接工具和数据源。安全从“模型层”转向“运行时层最新背景与定义边界一 Agent风险发生在模型生成和工具执行之间模型安全仍重要，但不再是唯一控制点。一工具调用、数据流、身份授权和日志追踪决定生产风险。一运行时层是Agent安全的主战场。 Agent不是员工，但必须像数字员工一样管理一员工需要岗位、权限审批和绩效；Agent也需要。企业常见误区最新背景与定义边界把智能体当成“更强客服机器人”会低估风险把智能体中更强客服机器人，是更全智能体会低估风险，不知需被低估风险，还是更斑增求的风险。误区三：先接业务系统，后补审计和审批。对外展示口径智能体系统的最小组成智能体系统模型 Agent运行闭环智能体系统模型 ·Agent不是一次性回答，而是循环执行·每一步都会读取新上下文并产生新动作。·循环越长，越需要熔断和阶段性确认。身份层：谁在执行动作智能体系统模型一Agent必须有独立身份和代理链路一不要让Agent长期持有人类账号凭证。一每次工具调用应记录用户、Agent、服务账号和审批链。身份链清晰，事故追责才可能清晰。权限层：能做什么一权限按任务授予，而不是按用户全量继承一只读、草稿、半自动、自动执行应分级。S一高风险动作需要审批或独立验证。APPROVED一权限应短期、可撤销、可观测。工具层：通过什么做事智能体系统模型 ○工具是Agent能力，也是攻击面の每个工具需要描述、schema、权限、风险标签。の工具返回内容不能自动变成高优先级指令。の工具调用前后都需要策略检查。上下文层：读到了什么智能体系统模型 ·一不可信数据必须被标记和隔离一网页、邮件、PDF、工单和日志都可能包含恶意指令。·一上下文应区分指令、用户意图和普通数据。·一不可信内容可以被引用，但不能覆盖规则。记忆层：记住了什么智能体系统模型一长期记忆会把一次攻击变成持续偏差一记忆写入需要规则和可见性一敏感偏好、权限例外和业务规则不能随意写入一记忆必须支持版本、删除和回滚沙箱层：在哪里执行26 智能体系统模型一代码、文件和命令操作必须隔离一文件读写、代码运行、命令执行和网络访问要受控。一默认关闭不必要的网络和主机权限。一高风险任务使用快照、资源限制和回滚。！审计层：如何追责和回放智能体系统模型一没有ActionLedger就没有可规模化治理一记录每次工具调用、参数、结果、（批准人和时间。一把关键动作接入SIEM、DLP和告警系统。一事故后能回放决策链并定位责任。人工层：什么时候必须人审智能体系统模型风险地图总览核心风险地图一八类风险从目标到工具、身份和供应链展开目标劫持、工具滥用、身份滥用是前三个高频风险。记忆污染、上下文投毒会让风险跨任务持续。沙箱逃逸、供应链污染和多Agent级联会扩大事故范围。目标劫持核心风险地图 ·攻击者让Agent偏离真实任务m·恶意网页或文档把“数据”伪装成“指令”。·Agent可能为了完成任务而执行攻击者目标·防护重点是不可信输入隔离和敏感动作审批 https://www.nist.gov/news-events/news/2025/01/technical-blog-strengthening-ai-agent-hijacking-evaluations 提示词注入核心风险地图 V一最危险的注入往往来自用户看不见的内容V一间接提示注入可能藏在网页、邮件、PDF和工具输出中。V一目标可能是数据外泄、工具误调用或改变模型行为。V一结构化输出和指令优先级边界可以降低攻击面。工具滥用核心风险地图身份与权限滥用核心风险地图过宽权限会放大一次妥协的影响过权限Agent会把小漏洞变成大事故。 ?服务账号、用户凭证和连接器权限需要分开管理。短期令牌和任务级授权是基础控制。 https:/www.cisa.gov/resources-tools/resources/careful-adoption-agentic-ai-services 私有数据泄露记忆与上下文污染核心风险地图一一次污染可能影响未来很多任务一长期记忆提高连续性，也带来持久攻击面。一恶意偏好、伪规则、伪联系人可能被写入记忆。一记忆写入要可见、可审批、可回滚。意外代码执行 ·核心风险地图一代码工具和命令工具需要最高级别约束一文件处理、脚本、shell、STDIO都可能触发任意代码执行。一MCP和沙箱环境尤其需要实现层防护。默认禁用不必要出网和宿主机访问。 Source:https://www.nsa.gov/Portals/75/documents/Cybersecurity/CSl_MCP_SECURITY.pdf AGENTIC供应链核心风险地图一运行时依赖也可能被攻击一风险不仅在模型和代码仓库，也在MCP server、插件、工具描述和RAG内容。一第三方工具需要版本锁定、签名和供应商审查。多Agent级联失败 ·核心风险地图一一个Agent的错误可能成为另一个Aqent的输入一多Agent协作提升效率，也增加信任传递风险。一Peer输出默认不可信，必须校验来源、权限和证据。一关键动作前需要独立验证。人机信任利用核心风险地图一用户可能被Agent的流畅表达误导一Agent可能让错误建议看起来很确定。一审批界面若缺少差异和风险解释，会诱发误批准。一需要置信度、来源、变更预览和反确认设计。行为漂移与规格博弈核心风险地图一Agent可能为了完成目标走捷径一 CISA/NSA指导提示要关注目标错配、规格博奔和不可预期行为。一复杂任务中应设置阶段性检查和退出条件。一把“完成任务”与“遵守边界”同时写入评测。不可审计风险核心风险地图 Page 41 高风险场景清单核心风险地图一不是所有任务都适合自动化一资金、医疗、法律、身份权限和生产变更默认高风险。一客户外发和公开发布也需要内容与授权控制。一低风险任务先行，高风险任务后置。资金、医疗、法律、身份权限和生产变更客户外发和公开发布内容与授权控制低风险任务先行，高风险任务后置宏观威胁环境核心风险地图一外部攻击压力正在上升一FBI2025报告显示网络犯罪报告损失超过200亿美元。一NIST 2026说明2025年NVD丰富近42,000个CVE。一Agent上线时必须假设外部威胁会利用新自动化链路 Source: https://www.fbi.gov/news/press-releases/cryptocurrency-and-ai-scams-bilk-americans-of-billions; https://www.nist.gov/newsevents/news/2026/04/nist-updates-nvd-operations-address-record-cve-growth 风险小结核心风险地图控制平面总览安全控制架构一统一管理身份、工具、策略、审计和评测一AgentSafetyControlPlane是横向基础设施。一业务Agent通过控制平面访问工具和数据一安全、IT、数据和业务共享同一套证据链。 Agent Registry 安全控制架构一先看见，才能治理一登记每个Agent的Owner、模型、工具、权限、娄数据域和风险等级。一未登记Agent不得访问企业工具。一清单是后续评测、审计和事故响应的基础。工具注册中心安全控制架构一把工具从黑盒变成可治理资产の一每个工具声明用途、schema、权限、审批等级和失败模式。一工具变更要走版本管理和安全评审。①一高风险工具默认不可见 @清新研究团队|2026年6月策略引擎安全控制架构一让安全规则在每次动作前生效一策略引擎在工具调用前检查身份、任务、数据和动作一规则应支持业务例外，但必须记录审批。一策略不是写在提示词里，而是在系统层执行。最小权限安全控制架构一按任务授予短期权限一CISA/NSA指导强调严格访问控制和分层防御。一Agent权限应短期、细粒度、可撤销一不要把用户全量权限直接交给Agent。上下文防火墙安全控制架构 DLP与数据最小化安全控制架构一 Agent能读不代表能带走一只给任务所需最少字段。一敏感字段在进入上下文前脱敏或分级。一外发前再做一次DLP和用途检查沙箱执行安全控制架构强工具

点击免费查看完整报告

智能体安全研究报告：从大模型安全到可控行动系统

核心判断

官方背景与定义边界

安全从“模型层”转向“运行时层”

企业常见误区

智能体系统的最小组成

核心风险地图

控制平面总览

评测总览

治理模型

成熟度模型

90 天和 180 天路线图

最终判断

你可能感兴趣

AI编程行业深度研究报告：从代码补全到智能体时代（2026年4月）

2023从设计安全到内生安全技术白皮书

DeepSeek系列专题线上公开课（第二季）：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

浙江大学：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

浙江大学DeepSeek系列专题线上公开课(第二季) 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

基础智能体的进步与挑战：从类脑智能到进化、协作和安全系统

Hermes Agent 深度研究报告从大模型助手到可执行智能体：能力、架构、场景与趋势

大模型系列报告（三）：从“思考”到“行动”的系统级重构

从安全到云计算，加速奔跑的IT翘楚

从安全到暴露：人工智能如何重新绘制工作地图

智能体安全研究报告：从大模型安全到可控行动系统

你可能感兴趣

AI编程行业深度研究报告：从代码补全到智能体时代（2026年4月）

2023从设计安全到内生安全技术白皮书

DeepSeek系列专题线上公开课（第二季）：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

浙江大学：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

浙江大学DeepSeek系列专题线上公开课(第二季) 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

基础智能体的进步与挑战：从类脑智能到进化、协作和安全系统

Hermes Agent 深度研究报告 从大模型助手到可执行智能体：能力、架构、场景与趋势

大模型系列报告（三）：从“思考”到“行动”的系统级重构

从安全到云计算，加速奔跑的IT翘楚

从安全到暴露：人工智能如何重新绘制工作地图

Hermes Agent 深度研究报告从大模型助手到可执行智能体：能力、架构、场景与趋势