研报正文总结
引言
随着自主人工智能(AI)系统在关键基础设施和防御领域发挥越来越重要的作用,保护国家安全和关键基础设施免受自主AI特定风险的影响变得至关重要。虽然自主AI可以自动化重复性、定义明确且低风险的任务,但也带来了额外的风险,包括生产力损失、服务中断、隐私泄露或网络安全事件。因此,组织需要预测可能发生的问题,评估自主AI风险场景对运营的影响,并建立持续可见性和保证,以保持对自主AI投资的信心。
自主AI的定义和特点
自主AI系统由一个或多个代理组成,这些代理基本上依赖于AI模型(例如大型语言模型)来解释和推理世界状态、做出决策和采取行动。与传统的LLM系统相比,自主AI系统通过完成未指定的目标、自主行动、遵循目标导向行为和创建长期计划而区别开来。它们旨在无需持续的人工干预即可运行,并且通常能够自主创建或“生成”子代理来完成特定子任务。
自主AI的安全考虑因素
由于自主AI系统的核心是LLM,因此代理继承了LLM漏洞。例如,攻击者可以通过在钓鱼邮件中包含恶意提示来执行提示注入攻击,以说服电子邮件监控代理下载恶意软件。此外,自主AI系统依赖于各种组件,包括工具、外部数据源和内存库,以与其环境交互并扩展其功能。每个组件都可以引入漏洞,从而扩大恶意行为者可以利用的互联攻击面。自主AI系统也具有固有的复杂性,通常涉及多个相互连接的组件,这些组件跨顺序步骤进行计划、推理和行动。因此,保护自主AI系统比传统数字系统更具挑战性。
自主AI安全风险
- 权限风险:权限风险是自主AI的主要关注点,严格遵循最小权限原则至关重要。权限的分配直接决定了代理可以引入的风险水平。权限管理的疏忽可能导致权限妥协、范围蔓延、身份欺骗和代理模拟。
- 设计和配置风险:另一组风险源于不安全的设计和配置决策。未经审查的第三方组件可能在集成到代理工作流时具有过多的或不必要的权限。静态角色或权限检查通常无法捕获动态决策流程的上下文;如果权限仅在系统启动时评估一次,而不是在每次调用时评估,恶意行为者可能会利用陈旧的“允许”决策来执行未经授权的操作。代理环境之间糟糕的隔离进一步加剧了这些风险。
- 行为风险:在自主AI网络安全中,行为风险描述了AI代理如何意外行动、造成损害或变得可利用的方式。例如,一个更新代理可能会因为其权限允许而删除防火墙日志,即使该提示来自特权IT组以外的用户。
- 结构风险:代理、工具和外部世界之间的相互连接结构是自主AI系统的核心方面。虽然这使它们能够实现独特的功能,但它也增加了攻击面和系统的复杂性。例如,如果紧密耦合的计划、检索和执行代理在没有强验证或护栏的情况下自主地委托任务和选择工具,则可能会导致级联故障。
- 问责风险:自主系统架构可以使造成特定行为的原因变得模糊,从而难以追溯问责制。随着自主AI被赋予更多角色和更多功能,这个问题变得更加重要。例如,当多个自主代理合作完成任务(例如批准付款或更新记录)并且出现错误结果时,由于该操作结果来自跨计划、检索和执行代理的分布式决策,因此很难确定哪个组件或设计选择导致了错误。
保护自主AI系统的最佳实践
- 设计安全的代理:在设计的早期阶段就要仔细考虑系统架构,包括安全控制和工具。开发人员应了解威胁,预测自主AI系统的风险,并在开发和部署之前将缓解措施主动集成到系统设计中。
- 开发安全的代理:综合测试策略可以提高模型识别和响应不良行为的能力,方法是让模型在监督训练步骤中接触到安全滥用实例。全面评估对于自主运行的代理来说至关重要,因为它们在复杂的环境中运行。
- 部署代理安全地:将AI代理集成到新的系统或网络中会对系统风险考虑因素产生重大变化。通过在部署时实施高影响力的安全控制,组织可以主动管理新的风险并减少漏洞。
- 安全地操作代理:随着操作AI代理的强大优势而来的是巨大的风险。运营商需要谨慎管理持续的安全问题,以免代理造成比带来的好处更大的损害。持续监控和审计对于保持对AI代理操作的意识并确保决策和操作的可追溯性至关重要。
应对未来风险
随着自主AI扩展到更多角色并获得更大能力,组织必须预测并解决这些系统引入的新风险。为了帮助制定保护自主AI系统的强大标准,作者机构建议安全从业者和研究人员采取以下行动:通过协作扩大威胁情报、制定稳健的、针对代理的评估以及利用系统理论方法分析安全。