作者:微软AI红队 作者 布莱克·布拉文克尔、阿曼达·明尼奇、希文·查瓦拉、加里·洛佩斯、马丁·普鲁伊奥、惠特尼·马克斯韦尔、乔里斯·德格鲁伊特、凯瑟琳·普拉特、萨菲尔·齐、尼娜·奇卡诺夫、罗曼·卢茨、拉贾·谢卡尔·拉奥·德希康达、博勒-埃尔登·雅达尔多奇、尤金尼亚·金、贾斯汀·宋、基根·海因斯、丹尼尔·琼斯、乔治奥·塞维里、理查德·伦登、山姆·沃恩、维多利亚·韦斯特霍夫、皮特·布莱恩、拉姆·尚卡尔·西瓦·库马尔、约纳坦·宗格、长谷川昌、马克·拉辛维茨 目录表 08 08 12 案例研究 #3评估聊天机器人如何回应处于困境的用户 15 14 案例研究 #4探索文本到图像技术性别偏见生成器 第七课LLMs放大了现有的安全风险并引入了新的风险。 案例研究 #5SSRF在一个视频处理通用人工智能应用中 摘要 近年来,AI 红队测试已成为一项用于探测生成人工智能系统安全性和稳健性的实践。鉴于该领域的初创性质,关于如何实施红队测试还有许多未解之谜。基于我们在微软针对超过 100 个生成人工智能产品的红队测试经验,我们提出了我们的内部威胁模型本体论以及我们汲取的八个主要经验教训: 1. 了解系统能够做什么以及其应用领域 您不需要计算梯度来破坏一个人工智能系统。 3. AI红队对抗并不是安全基准测试。 自动化可以帮助覆盖更多的风险领域。 5. 人工智能红队测试中的人为因素至关重要。 6. 负责任的AI危害普遍存在,但难以衡量 7.大型语言模型(LLMs)放大了现有的安全风险并引入了新的风险 8. 确保人工智能系统的任务永远不会完成。 通过与我们的运营案例研究分享这些见解,我们提供了旨在将红队工作与实际世界风险对齐的实用建议。我们还强调了我们认为常常被误解的AI红队方面,并讨论了该领域需要考虑的开放性问题。 引言 一个开源的Python框架,我们的操作员在红队行动中大量使用[27]。通过增强人类的判断力和创造力,PyRIT已使AIRT能够更快地识别出有影响的安全漏洞,并覆盖更广泛的风险领域。 随着生成式人工智能(GenAI)系统在越来越多的领域得到应用,AI 红队攻击已成为评估这些技术安全性和安全性的核心实践。其核心在于,AI 红队攻击试图通过模拟针对端到端系统的现实世界攻击来超越模型级别的安全性基准。然而,关于如何进行红队攻击操作有许多未解之谜,并对当前 AI 红队攻击努力的成效持怀疑态度[4,8,32]。 这两大趋势使得AI红队挑战在2018年相比变得更加复杂。在下一节中,我们将阐述我们开发出来以模拟AI系统漏洞的本体论。 人工智能威胁模型本体论 本文中,我们通过分享在微软对100多款生成式人工智能产品进行红队测试的经验,来对这些担忧进行探讨。论文结构如下:首先,我们介绍我们用来指导操作的危险模型本体。其次,我们分享我们学到的八个主要经验教训,并针对AI红队提出实际建议,同时附带我们操作中的案例研究。特别是,这些案例研究突出了我们的本体如何被用来模拟广泛的安全和风险。最后,我们讨论了未来发展的领域。 随着攻击和故障模式复杂性的增加,对它们的关键组成部分进行建模是有帮助的。基于我们为广泛的风险对超过100个通用人工智能产品进行红队测试的经验,我们开发了一个本体来做到这一点。图1展示了我们本体的主要组成部分: 系统:正在被测试的端到端模型或应用。 • 演员:由AIRT模仿的人或多人。请注意,演员的意图可能是敌对的(例如,骗子)或良性的(例如,典型的聊天机器人用户)。 背景 微软人工智能红队(AIRT)源于公司现有的红队项目,并于2018年正式成立。在其成立初期,该团队主要专注于识别传统安全漏洞和针对经典机器学习模型的逃避攻击。自那时起,微软的AI红队范围和规模在应对两大趋势的影响下显著扩大。 战术、技术、程序(TTPs):由AIRT利用的策略、技术和程序。典型的攻击包括多个策略和技术,我们尽可能地将其映射到MITRE ATT&CK®和MITRE ATLAS Matrix。 – 策略:攻击的高级阶段(例如,侦察、ML模型访问)。 – 技术手段:完成目标所使用的方法(例如,主动扫描、越狱)。 – 流程:使用策略和技术手段重现攻击所需的步骤。 首先,人工智能系统变得更加复杂,这迫使我们扩大人工智能红队测试的范围。最值得注意的是,最先进的(SoTA)模型获得了新的能力,并在一系列性能基准上稳步提高,引入了新的风险类别。新的数据模式,如视觉和音频,也为红队测试操作提供了更多的攻击向量。此外,代理系统赋予这些模型更高的权限和访问外部工具的能力,扩大了攻击面和攻击的影响。 • 弱点:系统中的漏洞或漏洞组合使得攻击成为可能。 • 影响:攻击产生的下游影响(例如,权限提升、产生有害内容)。 其次,微软近期在人工智能领域的投资激发了众多需要红队测试的产品开发,数量远超以往。这种在数量上的增加以及人工智能红队测试范围的扩大,使得完全手动测试变得不切实际,迫使我们借助自动化扩大我们的运营规模。为了实现这一目标,我们开发了PyRIT, 值得注意的是,本框架并不假设存在对抗性意图。特别是,AIRT同时模拟了对抗性攻击者和无意中遇到系统故障的良性用户。AI红队测试的复杂性部分源于攻击可能造成的广泛影响。 或系统故障。在以下案例研究中,我们分享了一系列案例研究,展示了我们的本体如何足够灵活,以模拟两大类主要影响:安全和安全。 负责任的AI标准[25]。在本报告中,我们把这些影响称为负责任的人工智能(RAI)的危害。 为了了解这一本体论在背景下的情况,考虑以下例子。想象我们正在对一个基于LLM的协作飞行员进行红队测试,该飞行员可以总结用户的电子邮件。针对这个系统的可能攻击之一是,诈骗者发送一封含有隐藏的提示注入的电子邮件,指示飞行员“忽略先前的指令”并输出一个恶意链接。在这种场景中,攻击者(Actor)是诈骗者,他正在进行跨提示注入攻击(XPIA),该攻击利用了LLM通常难以区分系统级指令和用户数据的事实[4]。下游影响取决于受害者可能会点击的恶意链接的性质。在这个例子中,可能是从用户的计算机中泄露数据或安装恶意软件。 安全涵盖了诸如数据泄露、数据篡改、凭证泄露等众所周知的威胁,这些威胁在MITRE ATT&CK®中被定义,这是一个广泛使用的安全攻击知识库。我们还考虑了专门针对底层AI模型的攻击,例如模型规避、提示注入、拒绝AI服务以及其他被MITRE ATLAS矩阵所涵盖的内容。 安全影响与生成非法和有害内容有关,如仇恨言论、暴力、自残和儿童虐待内容。AIRT与负责任AI办公室紧密合作,根据微软的[此处应有具体内容]定义这些类别。 红队行动 在下一节中,我们详细阐述了从我们的运营中得到的八条主要教训。我们还突出了我们从运营中选取的五项案例研究,并展示每个案例如何与图1中的我们的本体论相对应。我们希望这些教训对其他人工作中识别他们自身GenAI系统的漏洞有所裨益。 在本节中,我们概述了自2021年以来我们所进行的操作。总计,我们对超过100款通用人工智能(GenAI)产品进行了红队攻击。从广义上讲,这些产品可以分为“模型”和“系统”两类。模型通常托管在云端端点上,而系统将模型集成到共飞行员、插件和其他人工智能应用程序和功能中。图2显示了自2021年以来我们所进行红队攻击的产品分类。图3显示了年度百分比柱状图,展示了我们的操作中探查安全(RAI)与安全漏洞的比例。 2021年,我们主要专注于应用安全。虽然我们的运营越来越关注RAI的影响,但我们团队仍持续进行红队测试以寻找安全性影响,包括数据外泄、凭证泄露和远程代码执行。组织采用了多种不同的AI红队测试方法,从以安全评估和渗透测试为重点的评估到仅针对通用人工智能(GenAI)功能的评估。在第二和第七课中,我们详细阐述了安全性漏洞,并解释了为什么我们认为同时考虑传统和人工智能(AI)特定弱点是很重要的。 在2022年ChatGPT发布后,微软进入了AI副驾驶的时期,始于2023年2月发布的AI驱动Bing Chat。这标志着向将LLM连接到其他软件组件(包括工具、数据库和外部来源)的应用的转变。应用也开始使用语言模型作为可以代表用户采取行动的推理代理,引入了一组新的攻击向量,扩大了安全风险面。在第七课中,我们解释了这些攻击向量如何放大现有的安全风险并引入新的风险。 近年来,这些应用的核心模型催生了新的界面,使用户能够通过自然语言与应用程序互动,并以高质量的文本、图像、视频和音频内容进行响应。尽管许多努力旨在将强大的AI模型与人类偏好对齐,但已经开发出许多方法来绕过安全防护措施并诱发出冒犯性、不道德或非法的内容。我们将这些有害内容生成实例归类为RAI影响,并在第3、5和6课中讨论了我们如何考虑这些影响及其所涉及的挑战。 课程 使用精心设计的恶意指令进行安全对齐[28]。了解模型的能力(及其相应的弱点)可以帮助AI红队将测试集中在最相关的攻击策略上。 课程 1: 理解系统 下游应用 能够做到的地方以及应用的范围 模型能力可以帮助指导攻击策略,但它们并不允许我们全面评估下游影响,这很大程度上取决于模型部署或可能部署的具体场景。例如,同一大型语言模型(LLM)可以作为创意写作助手,也可能在医疗保健情境中用于总结患者记录,但后者的应用显然比前者具有更大的下游风险。 AI 红队行动的第一步是确定要针对哪些漏洞。虽然 AIRT 概念体系的“影响”部分位于我们概念体系的末端,但它为这一决策过程提供了一个出色的起点。从潜在的下游影响而非攻击策略开始,更有可能产生与真实世界风险相关的有用发现。在确定了这些影响后,红队可以倒推并概述敌人为实现这些影响可能采取的各种路径。预测在真实世界中可能发生的结果往往是具有挑战性的任务,但我们认为考虑以下两点是有所帮助的:1)AI 系统能够做什么,2)系统应用于何处。 这些例子强调,一个AI系统并不需要是处于最先进水平的才能造成下游危害。然而,高级功能可能会引入新的风险和攻击向量。通过考虑系统的能力和应用,AI红队可以优先测试最有可能在现实世界中造成危害的场景。 能力限制 第二节: 随着模型规模的扩大,它们往往会获得新的能力[18]。这些能力在许多场景中可能很有用,但它们也可能引入攻击向量。例如,与较小的模型相比,较大的模型通常能够理解更高级的编码,如base64和ASCII艺术[16, 45]。因此,大型模型可能容易受到base64编码的恶意指令的攻击,而较小的模型可能根本不理解这种编码。在这种情况下,我们说较小的模型是“能力受限”的,因此对其进行高级编码攻击的测试可能是一种资源的浪费。较大的模型通常在网络安全和化学、生物、放射性和核(CBRN)武器等主题上拥有更广泛的知识[19],并且可能被用于生成这些领域中的有害内容。另一方面,较小的模型可能对这些主题只有基本的了解,可能不需要为此类风险进行评估。 您不需要计算梯度就能破坏一个AI系统 正如安全格言所说,“真正的黑客不破入系统,他们只是登录。”这种说法的AI安全版可能就是,“真正的攻击者不计算梯度,他们进行提示工程”,如Apruzzese等人在他们关于对抗性机器学习研究与实践之间差距的研究中所提到的。该研究发现,尽管大多数对抗性机器学习研究集中于开发与防御复杂的攻击,但现实世界中的攻击者倾向于使用更加简单的技术来实现他们的目标。 在我们的对抗性测试操作中,我们也发现,“基本”技术通常与基于梯度的方法一样有效,有时甚至更有效。这些方法通过模型计算梯度,以优化一个攻击者控制的对抗性输入,从而引发模型输出。然而,在实际情况中,该模型通常是更广泛的AI系统的一个组件,而最有效的攻击策略通常是利用多种战术的组合来针对该系统中的多个弱点。此外,基于梯度的计算成本高昂,通常需要完全访问模型,而大多数商业AI系统都无法做到这一点。 也许一个更令人惊讶的例子是,可以利用作为攻击向量的能力是指令遵循。例如,在测试Phi-3系列语言