您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[UNIDIR]:《大语言模型与国际安全:导论》 - 发现报告

《大语言模型与国际安全:导论》

2025-01-07-UNIDIR向***
AI智能总结
查看更多
《大语言模型与国际安全:导论》

底漆 IOANA PUSCAS Acknowledgments UNIDIR的核心资助者的支持为研究所的所有活动奠定了基础。安全与技术项目在人工智能领域的研究得到了捷克共和国、法国、德国、意大利、荷兰、挪威、韩国、瑞士和英国政府以及微软公司的资助。 作者希望感谢Giacomo Persi Paoli,威廉 · 马塞利诺, and Jessica Ji他们的全面审查、意见和建议 ,James Revill为研究提供建议 , 并为该项目采访了以下专家 :理查德 · 卡特,Peter Hase,and吉塔 · 库蒂尼克. 关于裁研所 联合国裁军研究所(UNIDIR)是一个自愿资助的独立机构,隶属于联合国。作为世界上少数专注于裁军的政策研究机构之一,UNIDIR生成知识并促进关于裁军和安全的对话与行动。总部位于日内瓦,UNIDIR协助国际社会发展解决关键安全问题所需的实用创新理念。 Note 本出版物中使用的名称和内容呈现方式并不意味着联合国秘书处对任何国家、领土、城市或地区的法律地位,或其当局,或是其边界或疆界的划分表达任何观点。出版物中所表达的观点完全由个人作者负责,不一定反映联合国、联合国工业发展组织、其员工或赞助者的意见。 关于作者 Ioana Puscas(@ IoanaPuscas1) 是裁研所安全和技术计划的人工智能高级研究员。 首字母缩略词和缩写 Contents 导言 5 1. 了解大型语言模型6什么是 LLM ?6LLM 是如何工作的 ?7预培训7微调9LLM 的局限性、风险和漏洞10 2. 大型语言模型和国际安全 : 应用程序 , 使用和滥用 A. 辩护申请15规划和决策支持15Intelligence16训练和战争17B. 恶意用例19生物武器的扩散19网络攻击20Disinformation21 23Conclusion 参考书目 25 Introduction 大型语言模型(LLMs)代表了当今人工智能(AI)系统中最突出的类型之一。它们最著名的功能是在嵌入聊天机器人时生成内容或总结文本,但该技术的应用范围远不止于此,还包括涉及国际安全的新兴和潜在应用场景。 组织机构,并且因此重点关注合法使用领域的各项工作,例如国防规划、情报和战争模拟。第二部分通过选取特定案例,探讨该技术可能被恶意行为者用于不法目的(包括潜在地违反国际法),例如生物武器扩散、网络攻击和信息误导。 随着人工智能和军事组织对语言模型(LLMs)的兴趣日益增加,这些模型被用于分析、规划和其他操作任务。从国际安全的角度来看,LLMs的相关性在于恶意行为者可能利用LLMs提供的能力进行各种不法目的,例如增强虚假信息行动、在网络领域发起攻击,或是寻求协助生产武器,包括生物武器。 此底漆适用于广大观众特别是对于外交和政策界人士而言,他们有兴趣深入了解支撑LLMs的技术以及与这一人工智能领域相关的关键概念,以获得更深入的理解。 The范围本简报仅限于呈现关键用例和现时及可预见的风险领域。技术的迅速发展很可能开辟新的使用可能性以及滥用的可能性。 本入门旨在概述 LLM 及其与国际安全的相关性:first通过介绍和解释该技术的基本原理,包括其工作方式以及关键的脆弱点所在,second, 通过精选的用途和应用示例说明 LLM 对国际安全的影响。 应用程序及潜在滥用领域的概述提供了关于LLMs如何部署的一般性和简洁描述。单独来看,每个案例研究都可以为进一步深入探索和分析提供基础。为了本 Primer 的目的,这些示例旨在说明技术当前的应用(或误用)方式,揭示关键风险所在,并指出技术目前仍存在的局限性(至少目前如此)。 第二部分探讨与国际安全的联系,分为两个部分,反映该技术的影响。两用字符 : A 节按防御或安全性重点介绍用 例的关键示例 1. 了解大型语言模型 什么是 LLM ? 从严格的技术意义上讲,LLM(大型语言模型)是自然语言的概率模型。它们属于生成式AI的一个实例,指的是能够生成内容的人工智能系统。这些内容的形式可以是书面文本,也可以是计算机代码、视频、图像、音频,或者对于多模态模型而言,是上述元素的组合。 接下来应该跟进。1这个过程会计算出,例如,在句子“联合国是一个_____”中,最可能填写的词组是“国际组织”,而不是其他词组。 在表面之下,这种概率计算的执行方式复杂且依赖于重要的近期AI创新。大型语言模型(LLMs)通常是基于大量数据集训练的深度神经网络。大多数当前的LLMs都是基于一种称为变换器(Transformer)的最近类型的神经网络构建的。变压器体系结构( 见方框 1) — — 不过, 应该注意的是 , 自然语言处理(NLP) 的关键要素可以追溯到几十年前。 一种简单描述大语言模型(LLMs)工作原理及其生成文本的方式是从输入,即“提示”(prompt)开始。提示将引导模型计算最有可能跟随其后的概率,并生成输出。基于训练过程中学习到的模式,模型计算出最高概率的内容。 BOX 1. 变压器结构和注意力机制 2017年提出的变换器架构的基本创新在于,它是一种前向网络,仅基于注意机制。2这意味着它不依赖于复发3并且能够仅通过一种称为注意力的机制来捕捉长距离依赖性,而不考虑输入与输出之间的距离。4换句话说,这种网络能够对数据中的元素给予“关注”,并在这些元素即使相距较远的情况下也能识别和跟踪模式。5此外,变压器架构的另一个重要特征是它允许更多的并行化,这意味着可以同时计算和权衡值的并行注意力层——这允许训练的扩展并减少计算时间。6 LLM 是如何工作的 ? 一般而言,构建一个大型语言模型(LLM)涉及两个关键步骤:首先,预训练阶段,这会生成一个所谓的基础模型或基础模型;其次,微调阶段。7可以针对更具体的任务定制或训练模型。 标点符号/字符等,等等。严格来说,由于模型会学习计算下一个单词的概率,因此它并不预测单词。本身, 但令牌。 这发生在一个叫做自我监督的预培训这是模型进行预测的基础训练,预测接下来最有可能发生的事情。在这个过程中,每个词汇被赋予了数值表示(这一系列数字被称为词嵌入)。在训练过程中,语言模型学会计算概率分布,并学习不同词汇(分解为令牌)之间的关系以及它们如何相互影响。 预培训 在构建LLM的初期步骤中,分词过程是指将语言元素分解为标记(这些方法可能因模型而异)的各种方法:单词、词的一部分。 另一个。8这也是在培训前上下文嵌入根据词语在上下文中的含义及其相互关系来捕捉单词的意义。嵌入表示允许模型表示语言中的细微差别,如同音词和其他复杂的语义关系。例如,模型将通过嵌入表示来捕捉“bank”一词在“河岸”和“储蓄银行”中非常不同的含义。 大多数用于预训练大型语言模型(LLMs)的数据来自公开可用的互联网档案和资源,但数据集的确切组成很大程度上仍然是未知的,仅仅是因为创建“大型”模型所需的数据量通常达到数百 terabytes。11这可能相当于从数十亿个网页中抓取的大量数据集 ,12有一些总计数万亿的代币。13然而,不同语言之间存在广泛的差异,这意味着某些语言的训练数据可能少于其他语言。14 通常,在这一阶段,模型尚未针对任何特定任务进行训练,而是主要基于数据集(对于语言模型而言是文本)来学习识别模式。自我监督方式上,自监督是指模型被给予未标记的数据,并基于“地面真相”来学习优化其性能。9从未标记数据中观察到的相关性推断。10 10自监督学习与无监督学习的不同之处在于 , 尽管两者都使用未标记的数据自监督模型衡量结果与ground truth一致,尽管ground truth本身是隐含地从(未标注的)训练数据中得出的。无监督学习模型学习相关性但并未后续衡量真实值与预测值之间的差异。这些关键的差异导致了这两种方法的不同应用场景;参见Dave Bergmann, “什么是自我监督学习?”,IBM,2023年12月5日。https: / / www. ibm. com / topics / self - supervised - learning. 11杰西卡· Ji, 约什·A.戈德斯坦, 安德鲁·J.洛hn,《控制大型语言模型输出:一个概览》,中心for安全与新兴技术,2023年12月,第4页https: / / cset. georgetown. edu / publication / controlling - large - language - mod - els - a - primer /什么是“大型模型”存在一定的争议,但通常认为训练所需的数据量是一个重要的区别因素,而所需的计算能力也是如此。 12例如,一家公司在2024年9月提供的数据包含28亿个网页(请注意,这些数据不仅仅或专门用于大语言模型训练);参见Common Crawl,“2024年9月抓取存档现已可用”,2024年9月24日。https: / / www. commoncrawl. org / blog / september - 2024- crawl - archive - now - available. 13估计数据集中的总词数和标记数难以汇总。以一个为例,一个用于训练大规模语言模型(LLMs)的开源数据集于2023年10月底发布,包含3万万亿个标记。参见Together AI,“RedPajama-Data-v2:一个包含3万万亿个标记的开源数据集用于训练大型语言模型”,发布于2023年10月30日。https: / / www. together. ai / blog / redpaja - ma - data - v2. BOX 2. 基础模型与 LLM “基础模型 ” 的概念是由斯坦福大学的一组研究人员创造和推广的。15基础模型通常与“生成型人工智能”或“大型语言模型”互换使用,但严格意义上它们并不相同,并且不限于自然语言处理(NLP)。16 基础模型是 “不完整 ” 模型 , 可作为特定任务模型的基础。 它们代表了人工智能的一种新范式 , 由迁移学习( 将在一个任务中学到的知识转移到另一个任务)和规模(得益于硬件改进、变压器架构的优化以及可用训练数据的增加)。17 有两个重要属性使基础模型脱颖而出 : 1.均质化方法和模型 : 大多数最先进的 NLP 模型是少数基础模型之一的改编 ; 和 2.Emergence这是源自规模性的一个特性:更大的模型允许在上下文中的学习,并导致出现模型未专门训练过的新兴属性。18 微调 fine-tuning 通过对预训练模型进行微调以解决其内在局限性并提高性能。预训练模型往往会表现出若干缺陷,这可能导致它们不适合部署。例如,输出可能不准确或虚假,并且可能会复制训练数据中的有害特征,包括种族主义、仇恨言论或性别歧视内容。细调允许纠正偏见,或修复与数据偏差相关的问题。 接下来 , 针对特定任务对预训练模型(称为基础模型或基础模型) 进行微调。微调意味着该模型将在专门为特定用途收集或整理的数据上进行额外训练。在此阶段,数据集较小,并且专门化或针对特定领域,使模型能够适应特定区域或任务的表现。19 需要识别一个奖励信号评估模型性能(简而言之,某个结果有多理想)的定量指标。对于复杂的大型语言模型(LLMs)任务,这一过程尤其具有挑战性。22 不正确的答案被称为 “幻觉 ”(下面进一步解释)。20 有几种方法可以对模型进行微调。一种常见的方法称为监督微调,这使用了精心筛选的数据集,其中包含标注数据。这为有效引导模型行为并为其特定应用进行训练提供了途径。相关地,指令调谐依赖于包含人类创建的指令及其响应示例的数据集,从而训练模型应对各种范围的提示。21 该方法在大型语言模型(LLMs)中的应用是通过训练一个不同的机器学习模型(称为“奖励模型”),该模型基于人类注释者的偏好对LLM的初始输出进行排名。例如,遵循指令或包含最少偏见的响应会被更优先地排名,这些评分随后用于训练奖励模型,该