您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:大型语言模型综述(英) - 发现报告
当前位置:首页/其他报告/报告详情/

大型语言模型综述(英)

2023-06-29-未知机构劫***
大型语言模型综述(英)

1L•大型语言模型综述赵韦恩 · 欣、周坤 * 、李俊毅 * 、唐天一、王晓磊、侯玉鹏、敏英钱、张北辰、张俊杰、董子、杜一凡、陈阳、陈玉硕、陈志鹏、姜金浩、任瑞阳、李一凡、唐新宇、刘子康、刘培宇、聂建云、温吉荣Abstract自从 1950 年代提出图灵测试以来,人类就开始探索机器对语言智能的掌握。语言本质上是一个复杂而复杂的人类表达系统,受语法规则的支配。开发有能力的人工智能 ( AI ) 算法来理解和掌握语言提出了重大挑战。在过去的二十年中,语言建模作为一种主要方法已被广泛研究用于语言理解和生成,从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上对 Trasformer 模型进行预训练,提出了预训练语言模型 ( PLM ),显示出解决各种自然语言处理 ( NLP ) 任务的强大能力。由于研究人员发现模型缩放可以提高模型容量,因此他们通过将参数缩放增加到更大的尺寸来进一步研究缩放效果。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅实现了显着的性能提高,而且还表现出一些特殊的能力 ( e 。Procedre, 上下文学习),在小规模语言模型中不存在 (例如Procedre, BERT) 。为了区分不同参数范围内的语言模型,研究界为大型 PLM 创造了大型语言模型 ( LLM ) 一词 ( 例如Procedre, 包含数百亿或数千亿个参数 ) 。近年来,学术界和工业界对 LLM 的研究取得了很大的进展,其中一个显著的进展是基于 LLM 开发的强大 AI 聊天机器人 ChatGPT 的推出,引起了社会的广泛关注。LLM 的技术发展对整个 AI 社区产生了重要影响,这将彻底改变我们开发和使用 AI 算法的方式。考虑到这种快速的技术进步,在本次调查中,我们通过介绍背景,关键发现和主流技术来回顾 LLM 的最新进展。特别是,我们专注于 LLM 的四个主要方面,即培训前,适应性调整,利用率和容量评估。此外,我们还总结了开发 LLM 的可用资源,并讨论了未来方向的剩余问题。这项调查提供了有关 LLM 的最新文献综述,这对于研究人员和工程师来说都是有用的资源。索引术语- 大型语言模型 ; 新兴能力 ; 适应性调整 ; 利用 ; 对齐 ; 能力评估✦1I介绍“我的语言的极限意味着我的世界的极限。— — 路德维希 · 维特根斯坦ANGUAGE是人类表达和交流的突出能力,它在儿童早期发展并在一生中进化 [1,2] 。然而,机器不能自然地掌握以人类语言形式理解和交流的能力,除非配备了强大的人工智能 ( AI ) 算法。这是一个长期的研究挑战,以实现这一目标,使机器能够读,写,和。像人类一样交流 [3] 。从技术上讲 , 语言建模 ( LM ) 是提高机器语言智能的主要方法之一。通常 , LM 旨在对单词序列的生成可能性进行建模 , 从而预测未来 ( 或缺失 ) 标记的概率。 LM 的研究在文献中受到了广泛的关注 , 可以分为四个主要发展阶段 :•统计语言模型 (SLM) 。 SLM [4 - 7]版本 : v11 ( 主要更新于 2023 年 6 月 29 日 ) 。GitHub 链接 : https: / / github. com / RUCAIBox / LLMSurvey* K. Zhou 和 J. Li 对这项工作做出了同样的贡献。作者主要是在中国北京中国人民大学高陵人工智能学院和信息学院工作 ; Nie Jian - Yun Nie 在加拿大蒙特利尔大学 DIRO 工作。联系电子邮件 : batmanfly @ gmail. comveloped based on statistical learning methods that rose in the 1990. The basic idea is to build the word prediction model based on the Markov assumption, e. e., predicting the next word based on the most recent context. The SLM with a fixed context lengthn也被称为n- gram 语言模型,e 。Procedre、二元语法和三元语言模型。SLM 已广泛应用于提高信息检索 ( IR ) [8,9] 和自然语言处理 ( NLP ) 中的任务性能 [10 - 12] 。但是,它们经常遭受维数的诅咒 : 由于需要估计指数数量的转移概率,因此很难准确估计高阶语言模型。Ths, specially desiged smoothig strategies sch as bacoff estimatio [13] ad Good - Trig estimatio [14] have bee itrodced to elimate the data sparsity problem.神经语言模型 (NLM)NLM [15 - 17] 通过神经网络表征词序列的概率,e 。Procedre, 递归神经网络 (RNN) 。作为一个显著的贡献,[15] 中的工作引入了单词分布式表示的概念,并建立了基于聚合上下文特征的单词预测功能 ( i 。Procedres., 分布式单词向量) 。通过扩展学习单词或句子的有效特征的思想,开发了一种通用的神经网络方法来为各种 NLP 任务构建统一的解决方案 [18] 。此外,word2vec [19,20] 被提议构建一个简化的浅神经网络,用于学习分布式单词表示,这被证明是非常有效的。arXiv: 2303.18223v11 [cs. CL] 2023 年 6 月 29 日•••• 2••10000800060004000200017501500125010007505002500201820192020202120222023时间020202021时间20222023(a) 查询 = "语言型号 “(b) 查询 = “大型语言模型 ”Fig.1 : 分别包含关键短语 “语言模型 ” ( 自 2018 年 6 月以来 ) 和“ 大型语言模型 ” ( 自 2019 年 10 月以来 ) 的 arXiv 论文的累积数量趋势。通过按月份查询标题或摘要中的关键短语,使用完全匹配来计算统计信息。我们为两个关键短语设置了不同的 x 轴范围,因为 “语言模型 ” 已经在较早的时间进行了探索。在 LLM 的研究进展中,我们标记了与重要地标相对应的点。ChatGPT 发布后出现了急剧的增加 : 在标题或摘要中包含 “大型语言模型 ” 的 arXiv 论文的平均数量从每天 0.40 增加到每天 8.58 ( 图 1 ( b ) ) 。这些研究已经开始使用语言模型进行表征学习 ( 超越单词序列建模 ) , 对 NLP 领域产生了重要影响。预训练语言模型 (PLM) 。作为早期的尝试,ELMo [21] 被提议通过首先预训练双向 LSTM ( biLSTM ) 网络 ( 而不是学习固定的单词表示 ),然后根据特定的下游任务微调 biLSTM 网络来捕获上下文感知的单词表示。此外,基于具有自注意机制的高度可并行化的 Trasformer 架构 [22],BERT [23] 是通过在大规模无标签语料库上使用专门设计的预训练任务对双向语言模型进行预训练而提出的。这些预先训练的上下文感知单词表示作为通用语义特征非常有效,这在很大程度上提高了 NLP 任务的性能。本研究启发了大量的后续工作,树立了 “预训练和微调 ” 的学习范式。遵循这种范式,已经开发了大量关于 PLM 的研究,引入了不同的体系结构 [24,25] ( 例如Procedre, GPT - 2 [26] 和 BART [24]) 或改进的训练前策略 [27 - 29] 。在此范例中,它通常需要微调 PLM 以适应不同的下游任务。大型语言模型 (LLM)研究人员发现,缩放 PLM (例如Procedre, 缩放模型大小或数据大小 ) 通常会导致下游任务上的模型容量提高 ( i 。Procedres., 遵循缩放定律 [30]) 。许多研究通过训练更大的 PLM 来探索性能极限 ( 例如。Procedre, 175B 参数 GPT - 3 和 540B 参数 PaLM) 。尽管缩放主要是在模型大小 ( 具有类似的体系结构和预训练任务 ) 中进行的,但这些大型 PLM 显示出与较小 PLM 不同的行为 ( e 。Procedre, 330M 参数 BERT 和 1.5 B 参数 GPT - 2 ),并在解决一系列复杂任务时表现出令人惊讶的能力 ( 称为紧急能力 [31] ) 。例如,GPT - 3 可以通过上下文解决少量任务。学习,而 GPT - 2 做得不好。因此,研究界将术语 “大型语言模型 ( LLM ) ” 1 用于这些大型 PLM [32 - 35],这引起了越来越多的研究关注 ( 见图 1 ) 。LLM 的一个显着应用是 ChatGPT2,它将 GPT 系列中的 LLM 改编为对话,这与人类具有惊人的对话能力。在图 1 中 ChatGPT 发布后,我们可以观察到与 LLM 相关的 arXiv 论文的急剧增加。在现有的文献中,PLMs 已经被广泛地讨论和调查 [36 - 39],而 LLM 很少以系统的方式被审查。为了激励我们的调查,我们首先强调 LLM 和 PLM 之间的三个主要差异。首先,LLM 显示出一些令人惊讶的新兴能力,这在以前较小的 PLM 中可能无法观察到。这些能力是语言模型在复杂任务上表现的关键,使 AI 算法空前强大和有效。其次,LLM 将彻底改变人类开发和使用 AI 算法的方式。与小型 PLM 不同,访问 LLM 的主要方法是通过提示界面 ( 例如Procedre, GPT - 4 API) 。人类必须了解 LLM 是如何工作的,并以 LLM 可以遵循的方式格式化他们的任务。第三,LLM 的发展不再明确区分研究和工程。LLM 的培训需要在大规模数据处理和分布式并行培训方面具有丰富的实践经验。为了开发有能力的 LLM,研究人员必须解决复杂的工程问题,与工程师合作或成为工程师。如今 , LLM 对 AI 社区产生了重大影响 , ChatGPT 和 GPT - 4 的出现导致人们对人工智能通用智能 ( AGI ) 的可能性进行了重新思考。 OpenAI 发表了一篇名为 “为 AGI 及其他领域规划 ” 的技术文章 , 讨论了采用 AGI 的短期和长期计划 [40] ,1.请注意 , LLM 不一定比小型 PLM 更有能力 , 并且在某些 LLM 中可能不会出现紧急能力。2.https: / / openai. com / blog / chatgpt /GPT - 4 LLaMAChatGPTInstructGPTCodexGPT - 1 GPT5T - 2GPT - 3BERTGPT-4LLaMAChatGPTInstructGPTT5GPT - 3鳕鱼ex 3•最近的一篇论文认为 GPT - 4 可能被认为是 AGI 系统的早期版本 [41] 。人工智能的研究领域正在因 LLM 的快速发展而发生革命性的变化。在 NLP 领域,LLM 可以作为通用语言任务求解器 ( 在某种程度上 ),并且研究范式已经转向使用 LLM 。在 IR 领域,传统搜索引擎受到通过 AI 聊天机器人 ( i 。Procedres., ChatGPT ) 和 New Big3 提出了基于 LLM 增强搜索结果的初始尝试。在 CV 领域,研究人员尝试开发类似 ChatGPT 的视觉语言模型,可以更好地服务于多模式对话 [42 - 45],GPT - 4 [46] 通过整合视觉信息支持多模式输入。这种新的技术浪潮可能会导致基于 LLM 的现实世界应用程序的繁荣生态系统。例如,Microsoft 365 由 LLM 授权 ( i 。Procedres., Copilot ) 来自动化办公室工