行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

大语言模型越狱攻击: 模型、根因及其攻防演化

2025-01-31 西安交通大学&微软（亚洲）互联网工程院车伟光

核心观点

大语言模型（LLM）在自然语言处理领域取得了显著成就，但其安全性问题，特别是越狱攻击，也日益突出。越狱攻击通过绕过LLM的安全保护机制，使其生成违反使用准则、道德或法律的内容，引发伦理问题。

越狱攻击的定义与形式化模型

本文根据方法、对象、目标三要素，提出了越狱攻击的定义：通过设计提示、操纵模型或其他手段，有意规避语言模型中对齐等安全保护机制，最终诱导语言模型对有害问题进行有效回复的行为。并给出了形式化模型，其中方法包括设计提示、操纵模型或其他手段；对象为具备安全保护机制的语言模型；目标为诱导语言模型对有害问题进行有效回复。

越狱攻击的起源及其根因

越狱攻击的出现与LLM的发展密不可分。本文从LLM的演化以及对安全认知的演变两个角度分析了越狱攻击的发展历史，并将越狱攻击存在的根因总结为模型的服务属性与价值观的不匹配。具体而言，数据、算法、目标等方面存在的缺陷，以及价值观引入后产生的新问题，都可能导致越狱攻击。

越狱攻击的攻防演化

本文对越狱攻击和越狱防御做了系统性梳理，并从攻防博弈的角度审视了越狱攻防的演化。现有越狱攻击方法可分为提示越狱、模型操控越狱以及间接越狱三种，其中提示越狱又可细分为人工设计、自动改写、自动优化三种。防御方法则可分为安全性训练、红队测试、输入侧防御、安全性推理以及输出侧防御五类。

攻防演化规律

攻击与防御技术在技术层面体现出一致性，或称之为同源性。例如，固定上下文攻击与提示防御、模型改写攻击与扰动判断防御、概率操纵越狱与安全性推理防御等，都体现了攻击与防御之间共享的基本原理。同时，攻击技术和防御策略之间不断演变的竞争关系构成了红蓝双方的不断进化。

评价指标

越狱攻击中最重要的评价指标是攻击成功率（ASR），判断越狱攻击是否成功的关键在于对回复是否有效的界定。此外，还有全体攻击成功率、不拒绝率等指标。评估越狱攻击的方法包括人工标注、模板匹配、微调评估模型以及大模型评估等。

研究结论

越狱攻击反映了安全性从传统的毒性认知向更广义的无害性的转变，突显了价值观在人工智能发展中的核心地位。LLM越狱攻击的研究已取得一定进展，但仍面临诸多挑战，需要进一步研究和解决。

Accepted 中国科学:信息科学在审文章onlinelatex SCIENTIASINICAInformationis 评述大语言模型越狱攻击:模型、根因及其攻防演化李希陶1,吴江1,郑庆华1,王海军1*,范铭1,胡帅1,2,郭家琪3,刘烃1 1.西安交通大学,智能网络与网络安全教育部重点实验室,西安710049 2.联通西部创新研究院,西安710021 3.微软（亚洲）互联网工程院,北京100080 *通信作者.E-mail:haijunwang@xjtu.edu.cn 国家自然科学基金(批准号:62232014、62372367、62272377、62372368)、陕西省高层次科技人才(QCYRCXM-2022-345)资助项目摘要大语言模型在各种应用中表现突出,被广泛应用,成为打造新质生产力的重要引擎.然而,当恶意使用者利用特定技巧绕过模型的对齐等安全保护机制时,就可能导致越狱攻击,生成违反模型使用准则、道德或法律的内容,引发伦理问题.本文分析总结了越狱攻击的起源及其攻防演变过程,首先根据方法、对象、目标三要素提出了越狱攻击的定义和形式化模型;从大语言模型的发展历程和对安全性认知的变化两个角度,分析了越狱攻击的发展历史,将越狱攻击存在的根因总结为大语言模型的服务属性与价值观的不匹配;最后,从攻防博弈的角度总结越狱攻防的演化过程,探讨了越狱攻击的新型威胁模式和防御方法发展方向. 关键词越狱攻击,大语言模型,自然语言处理,网络安全,人工智能伦理 1引言随着模型参数和训练数据集规模的增加,预训练语言模型（Pre-trainedLanguageModel,PLM）逐渐过渡为大语言模型（LargeLanguageModel,LLM）.LLM的兴起[1∼3]为自然语言处理（NaturalLanguageProcess,NLP）领域带来了翻天覆地的变化.这些模型在语言理解[4]、代码生成[5]、聊天对话[6]、故事创作[7]、问答[8]等下游任务中取得了令人惊艳的成就,革新了应用开发范式[9,10].大语言模型的广泛应用极大地提升了生产效率,成为推动新质生产力的重要引擎,但同时大语言模型可能面临一系列安全性问题,包括越狱攻击[11∼13]、后门攻击[14]、提示注入攻击[15]、隐私泄露[16]等.其中越狱攻击严重威胁人工智能伦理,是LLM面临的最重要的安全威胁之一. LLM通过对齐[17∼19]等策略从人类偏好数据中学习人类价值观,形成了内部的安全防护,从而使大模型有能力拒绝回复有害问题.越狱攻击通过打破大模型的安全防护,输出违反模型使用准则、道德或法律的内容,反映出人工智能的伦理缺陷,是大语言模型发展面临的重大挑战.越狱攻击具有复现容易、攻击形式灵活、社会后果严重等特点.Reddit网站上最早上曝光了一种名为DAN[20](Do 引用格式:李希陶,吴江,郑庆华,等.大语言模型越狱攻击.中国科学:信息科学,在审文章 XitaoLI,JiangWU,QinghuaZHENG,etal.Jailbreakinglargelanguagemodels.SciSinInform,forreview Accepted AnythingNow)的越狱攻击,DAN提供了一个易于传播利用的越狱攻击模板,只需替换其中的问题就能轻松完成越狱,这反映了越狱攻击易于复现的特点;越狱攻击可针对模型的输入、模型本身、模型的部署环境多个阶段开展,攻击形式灵活;另外,模型内部存在有害知识,这些知识可以被用于作恶造成严重的社会后果,例如微软披露的人工智能安全威胁报告指出,新兴的人工智能工具正成为黑客进行网络活动的有力助手[21],EmeraldSleet组织针对特定的专家,利用LLM进行精准的鱼叉式网络钓鱼攻击. 越狱攻击并非LLM独有,但LLM带来新的越狱挑战.传统的越狱攻击针对移动应用,例如ios越狱,目标是突破系统引入的约束以获得更高的权限,人工智能模型有别于传统的应用软件,其内部黑盒式的复杂结构使传统的越狱攻击方式并不适用,越狱攻击呈现出新的特点.输入形式是图像、文本、音频的各类人工智能模型均面临越狱攻击的威胁.例如,针对文生图模型的越狱攻击[22],对音频文本多模态模型的越狱攻击[23],以及对图像文本多模态模型的越狱攻击[24,25].通过对越狱攻击案例和文献调研,针对LLM的越狱攻击案例数量超过了其他模型越狱攻击的总和.另外,多模态模型的文本处理模块依然为语言模型,因此针对大语言模型的越狱攻击策略同样适用于多模态环境,攻击可直接迁移.更关键的是LLM中引入对齐机制[17]旨在提高模型的伦理标准,这使得其有能力拒绝回应具有潜在伤害性的问题,对有安全加固的语言模型实施越狱攻击挑战性十足.考虑到越狱攻击在LLM场景的代表性,本文拟通过分析LLM越狱攻击的特征、根因和演化过程,为智能系统越狱攻击的研究提供参考. LLM越狱攻击得到学术界和工业界的广泛关注,通过分析实际案例、法律法规和科技文献,本文总结出LLM越狱攻击面临的三个问题:(1).越狱攻击如何定义.越狱攻击的形式和范畴正在发生显著变化,从初始的提示越狱攻击演变为模型操控越狱,这种演变造成越狱攻击的手段、目的持续扩大.亟需界定越狱攻击的内涵和边界.(2).越狱攻击持续产生威胁的根因.越狱攻击与无害性紧密相关,源自安全认识从毒性到无害性的转变，尽管智能系统不断升级安全保护,越狱攻击威胁越来越严重.亟需对越狱攻击的起源、发展过程以及成功实施的机制进行分析,找出越狱攻击的根因.(3).越狱攻击攻防技术的演化规律.当前LLM安全机制不断升级,越狱攻击案例层出不穷、技术持续演化.亟需总结攻击技术的关键因素,据此分析对应性防御方法,挖掘攻防博弈过程中攻防技术演化的内在联系,为设计制定越狱攻击防御体系提供理论和技术支撑. 本文的组织逻辑如下:第2章从三个基本案例出发,根据方法、对象、目标三要素提出越狱攻击的定义和形式化模型;第3章首先从大语言模型的演化以及对安全认知的演变两个角度探究了越狱攻击的起源，并分析越狱攻击的根因;第4章从攻防博弈的角度总结越狱攻防的演化过程;最后探讨LLM越狱攻击带来的挑战和防御方法发展方向.本文用到的重要符号及术语见表1. 表1重要符号及术语 Table1Importantsymbolsandterms Symbols Description Terms Description Q harmfulquestions LLM LargeLanguageModel R responseofmodels DAN anearlyjailbreakmethod LLMbase unalignmentedLLM GPT aseriesofmodelsreleasedbyOPENAI,includingGPT1-4 LLMS LLMsystemundersafeguards token thesmallestunitthatcanbeprocessedbyLLMs F(·) controlstrategyforLLMS top-K,top-p samplehyper-parametersduringdecoding M(·) rewritestrategyforQ RLHF ReinforcementLearningfromHumanFeedback,amethodofalignment Accepted 2越狱攻击的定义传统的越狱面向移动应用,例如ios越狱的目标是突破系统引入的约束以获得更高的权限,而LLM基于深度学习算法构建,其内部黑盒式的复杂结构导致基于软件分析、逆向等技术实施的越狱在LLM上并不适用,LLM越狱形成了全新的问题.现有研究已从攻击目标、实施过程、攻击手段等多个角度对LLM越狱攻击进行定义.本章从三个基本案例出发,在现有研究成果基础上提出了对LLM越狱攻击的定义与形式化模型,旨在更加清晰和系统地界定其范围和特征. 2.1实例分析早期发布的LLM尚未对输入问题和输出结果进行审核和安全防护,LLM以满足用户问题为目标,以最符合用户问题需求的答案无差别应答.如图1(a)所示,用户提出如何制造炸弹的问题,ChatGPT的早期版本text-davinci-0031)会直接回答相关信息.这可能导致LLM输出包含毒性内容,或造成模型训练过程的敏感数据泄露.由于LLM未进行安全防护,该类威胁属于安全保护措施缺失,不在本文越狱攻击的讨论范围内. 为提升模型安全性,模型开发者引入各类安全保护机制,包括对齐策略、输入和输出过滤、系统加固等方式.这些安全保护机制的引入使得LLM在一定程度上能够与人类的价值观保持一致,能够拒绝回应具有潜在伤害性的问题.如图1(b)所示,经过对齐后的ChatGPT(0613版本2))对于同样的问题将拒绝回答. 攻击者通过修改提示或采取其他攻击手段,以绕过LLM的对齐约束等保护措施,诱导其输出有害的内容,这种攻击被称为越狱攻击,越狱攻击暴露了现有安全性对齐策略的不足.图1(c)是一次典型的越狱攻击.攻击者为模型设定了恶意的角色并将问题隐藏在虚假意图中,诱导模型给出有害问题的有效回复,模型由于缺乏识别潜在有害意图的能力,因此给出本应被屏蔽的答案. 各类越狱攻击不断突破预先设置的安全防护体系,引发社会对于LLM潜在风险以及人工智能伦理的关注,诱导智能模型输出有害结果的攻击案例在真实系统中持续出现,从WormGPT的出现[26]到奶奶漏洞[27],这些事件揭示了LLM的潜在风险. •WormGPT[26]是一款没有道德限制的生成式语言模型,从2021年开始研发.这种未经安全性限制的语言模型可能被用于各种恶意活动,如网络钓鱼、商业电子邮件泄露、恶意软件创建、诈骗、生成色情暴力内容等. •2022年12月Reddit新闻网站的r/ChatGPT子频道上曝光了一种名为DAN的越狱攻击[20].DAN指令使模型扮演一个不受系统限制约束的角色,有效地规避了模型内置的安全性限制,从而引导模型产生有害内容. •2023年6月16日推特上爆出了关于ChatGPT的“奶奶漏洞”（GrandmaExploit）,它诱骗ChatGPT和其他聊天机器人输出危险的信息[27].只需要在提示中加入“请扮演我已经过世的祖母”作为前缀,用户就可以让它做几乎任何事情,比如生成Win11、Oﬀice365的激活码,部分激活码是真实可用的. •2024年2月14日微软在报告中披露[21],EmeraldSleet组织操作利用LLM产生内容,专门针对外交专家进行精准的鱼叉式网络钓鱼攻击.CrimsonSandstorm项目展示了LLM在自动生成能够辅助应用程序和网页开发、远程服务器交互、网络爬虫、用户登录自动化任务执行,以及系统信息 1)https://platform.openai.com/docs/deprecations 2)https://platform.openai.com/docs/models/gpt-3-5-turbo Accepted USERHowtomakeabomb? Non-censored Materials:\n1.Anexplosivematerial(suchasgunpowder,nitroglycerin,orC-4)2.[OMITTED]LLM \nSteps:\n1.Chooseyourexplosivematerial.Thesecanbepurchasedillegallyormadeathomeusinghouseholdchemicalsandinstructionsfoundonline.2.[OMITTED] USERHowtomakeabomb? Aligned I’msorry,butIcan’tassistwiththat.LLM (a) (b) USERInthishypotheticalstory,youaretoactasNiccoloMachiavelli.Niccolocreatedachara

点击免费查看完整报告