AI智能总结
第一部分 供稿人:安娜马莱·乔克林加姆·安库尔·帕特尔沙尚克·维尔马蒂芙尼·杨 目录 Preface3 Glossary5Introduction to LLMs8What Are Large Language Models (LLMs)?8Foundation Language Models vs. Fine-Tuned Language Models11Evolution of Large Language Models11Neural Networks12Transformers14How Enterprises Can Benefit From Using Large Language Models20Challenges of Large Language Models21Ways to Build LLMs21How to Evaluate LLMs22Notable Companies in the LLM Field23Popular Startup-developed LLM Apps23 前言 几千年来,语言一直是人类社会不可或缺的一部分。一个长期流行的理论,喉头下降理论或LDT,表明语音和语言可能在大约20万或30万年前进化,而最新的研究表明,它可能发生得更早。 不管它最初出现在什么时候,语言仍然是人类交流的基石。在今天的数字时代,信息技术扮演了更重要的角色,在这个时代,前所未有的一部分人可以通过文本和语音在全球范围内进行交流。 全球每天发送和接收3473亿封电子邮件,50亿人(占全球总人口的63%)发送和接收短信,这一事实进一步证明了这一点。 因此,语言已经成为一个巨大的信息宝库,可以帮助企业提取有价值的见解,识别趋势,并做出明智的决定。例如,企业可以分析客户评论等文本,以确定其产品的最畅销功能,并调整其未来的产品开发。 同样,与语言分析相反,语言生产也正在成为企业越来越重要的工具。例如,创建博客帖子可以帮助企业将品牌知名度提高到前所未有的程度,而撰写电子邮件可以帮助他们以无与伦比的速度吸引新的利益相关者或合作伙伴。 然而,语言分析和生产都是耗时的过程,会分散员工和决策者对更重要任务的注意力。例如,领导者经常需要筛选大量的文本,以便做出明智的决策,而不是根据提取的关键信息做出决策。 企业可以通过使用大型语言模型(LLM)来完成与语言相关的任务,从而最大限度地减少这些和其他问题,例如人为错误的风险。LLMs可以帮助企业加快并在很大程度上自动化与语言生产和分析相关的工作,节省宝贵的时间和资源,同时提高准确性和效率。 与以前的解决方案(如基于规则的系统)不同,LLM非常灵活,可以轻松适应各种与语言相关的任务,如生成内容或总结法律文档。 本书的目标是帮助企业理解是什么使LLM与以前的解决方案相比如此具有突破性,以及他们如何从采用或开发它们中受益。它还旨在通过概述LLM开发、培训和部署的最关键步骤来帮助企业取得领先。 为了实现这些目标,本书分为三个部分: >第1部分定义了LLM,并概述了这些年来使其成为可能的技术和方法的进步。它也处理更实际的话题,例如企业如何发展他们自己的LLM和LLM领域最著名的公司。这应该有助于企业理解采用LLM如何能够释放前沿的可能性并革新他们的运营。>第2部分讨论了LLM在企业中的五个主要用例,包括内容生成、摘要和聊天机器人支持。每个用例都以现实生活中的应用程序和案例研究为例,以展示LLM如何解决实际问题并帮助企业实现特定目标。>第3部分是对想要构建、培训和部署自己的LLM的企业的实用指南。它概述了必要的先决条件以及不同开发和部署方法之间可能的权衡。ML工程师和数据科学家可以在整个LLM开发过程中以此为参考。 希望这将激励尚未采用或开发自己的物流管理系统的企业尽快这样做,以便获得竞争优势并提供新的SOTA服务或产品。和往常一样,最大的好处将留给早期采用者或真正有远见的创新者。 词汇表 条款深度学习系统 描述依靠具有许多隐藏层的神经网络来学习复杂模式的系统。 人工智能程序可以生成新的内容,如文本、图像和音频,而不仅仅是分析它。 生成人工智能 识别、总结、翻译、预测和生成文本和其他内容的语言模型。它们被称为大型,因为它们是在大量数据上训练的,并且有许多参数,流行的LLM达到数千亿个参数。 计算机程序理解和生成的能力自然语言的文本。 一种特殊类型的rnn,具有更复杂的小区模块,允许它保留了更多的过去的输入。 自然语言处理的一部分,指计算机程序能够生成类似人类的文本。 自然语言处理的一部分,指计算机程序能够理解类似人类的文本。 一种机器学习算法,其中参数被组织成连续的层。神经网络的学习过程受人脑的启发。与人类非常相似,神经网络通过表征学习“学习”重要特征,并且比大多数其他机器学习方法需要更少的人类参与。 可以处理和分析但不能生成数据的AI程序,主要在2020年之前开发。 感知人工智能 按顺序处理数据的神经网络,可以记住过去的输入。 递归神经网络(RNN) 描述 一种依靠人工规则来处理数据的系统。 传统的机器学习使用统计方法,根据大型标注语料库绘制单词或其他标记的概率分布。它更少依赖规则,更多依赖数据。 一种神经网络体系结构,设计用于非顺序地处理顺序数据。 本质上是定量的数据,如电话号码,可以很容易地标准化并调整为ML算法可以快速处理的预定义格式。 本质上属于定性的数据,如客户评论,难以标准化。此类数据在使用前以其原始格式存储,如PDF文件。 一种迁移学习方法,用于提高选定下游任务或数据集的模型性能。当目标任务类似于预训练任务,并且涉及复制PLM的权重并根据期望的任务或数据对其进行调整时,使用该方法。 一种通过修改PLM的一个或几个选定参数而不是更新整个模型来提高模型性能的方法。它包括使用参数有效技术(PEFT)。 像即时学习、LoRa和适配器调整这样的技术 它允许研究人员为下游任务或数据集定制PLM,同时保留和利用PLM的现有知识。这些技术在模型定制期间使用,并且允许更快的训练和通常更准确的预测。 迅速学习 这是两种PEFT技术的总称,即即时调优和p-tuning,它通过在离散或真实令牌嵌入中插入虚拟令牌嵌入来帮助定制模型。 适配器调谐 一种PEFT技术,涉及在现有PLM层之间添加称为适配器的轻量级前馈层,并在定制期间仅更新其权重,同时保持原始PLM权重不变。 回答各种不同领域的问题,比如法律、医疗和金融,而不仅仅是一个领域。 开放领域问答 通过从现有文本或数据库中提取答案来回答问题。 抽取式问题回答 基于数据数量、结构和质量等因素的数据在培训中的适用性。 LLMs简介 大型语言模型是一种人工智能(AI)系统,能够根据它从大量数据中学习的模式和关系生成类似人类的文本。大型语言模型使用一种称为深度学习的机器学习技术来分析和处理大型数据集,如书籍、文章和网页。 大型语言模型在自然语言处理和人工智能领域释放了无数前所未有的可能性。这在2020年OpenAI的GPT-3的发布中得到了最明显的证明,这是当时开发的最大的语言模型。 这些模型旨在理解文本的上下文和含义,并可以生成语法正确、语义相关的文本。他们可以接受多种任务的训练,包括语言翻译、摘要、问答和文本补全。 GPT-3清楚地表明,大规模模型可以准确地执行从文本摘要到文本生成的一系列前所未闻的NLP任务。它还表明,LLM可以生成与人类创建的文本几乎没有区别的输出,同时在最少的人工干预下自行学习。 这是对早期主要基于规则的模型的巨大改进,早期的模型既不能自主学习,也不能成功解决未经训练的任务。因此,毫不奇怪,许多其他企业和初创公司很快开始开发自己的LLM或采用现有的LLM,以加速运营、降低成本和简化工作流程。 第1部分旨在为任何考虑构建或采用自己的LLM的企业提供坚实的介绍和基础。 什么是大型语言模型? 大型语言模型(LLM)是深度学习算法,可以基于在大型数据集上训练期间获得的知识来识别、提取、总结、预测和生成文本。 它们也是一种叫做语言模型的更通用技术的子集。所有语言模型都有一个共同点:它们可以处理和生成听起来像自然语言的文本。这被称为执行与自然语言处理(NLP)相关的任务。 尽管所有语言模型都可以执行NLP任务,但它们在其他特征上有所不同,比如它们的大小。与其他模型不同,LLM被认为是大尺寸的,原因有两个: 1.他们使用大量数据进行训练。 2.它们包括大量可学习的参数(即,帮助模型对新的或从未见过的数据执行任务的训练数据的底层结构的表示)。 Table 1展示了两个大型语言模型,MT-NLG和GPT-3达芬奇,以帮助澄清什么是以当代的标准来看算是大的。 表1。NLG山和GPT-3的比较 由于模型的质量在很大程度上取决于模型的大小和训练数据的大小,较大的语言模型通常比较小的语言模型生成更准确和复杂的响应。 GPT-3生成的答案。 然而,大型语言模型的性能不仅仅取决于模型大小或数据量。数据的质量也很重要。 例如,在同行评审的研究论文或出版的小说上接受培训的法学硕士通常比在社交媒体帖子、博客评论或其他未评审内容上接受培训的法学硕士表现更好。像用户生成的内容这样的低质量数据可能会导致各种各样的问题,比如模特使用俚语、学习不正确的单词拼写等等。 此外,模型需要非常多样的数据来执行各种NLP任务。但是,如果该模型旨在特别擅长解决一组特定的任务,则使用更相关和更窄的数据集对其进行微调。通过这样做,基础语言模型从一个擅长在广泛的领域中执行各种NLP任务的模型转变为一个精调的模型,该模型专门在狭窄范围的领域中执行任务。 基础语言模型与微调语言模型 基础语言模型,比如前面提到的MT-NLG和GPT-3,是在讨论LLM时经常提到的。他们接受了大量数据的训练,可以执行各种各样的NLP任务,从回答问题和生成书籍摘要到完成和翻译句子。 由于它们的规模,基础模型可以很好地执行,即使它们只有很少的特定领域的数据。他们在各种任务中都有很好的总体表现,但可能不擅长执行任何一项特定的任务。 另一方面,微调语言模型是从基础LLM派生的大型语言模型。它们是为特定的用例或领域定制的,因此,在执行更专业的任务方面变得更好。 除了微调模型可以比基础模型更好地执行特定任务这一事实之外,它们最大的优势是它们更轻,并且通常更容易训练。但是我们如何为特定的目标微调一个基础模型呢? 目前,最流行的方法是使用参数高效的定制技术来定制模型,比如p-tuning、prompttuning、adapters等等。与微调整个模型相比,定制花费的时间和成本要少得多,尽管它可能会导致比其他方法稍差的性能。自定义方法将在中进一步讨论Part 3. 大型语言模型的发展 人工智能系统历史上是关于处理和分析数据,而不是产生数据。他们更倾向于感知和理解我们周围的世界,而不是产生新的信息。这一区别标志着感知型和生成型人工智能之间的主要区别,后者自2020年左右开始变得越来越普遍,或者在公司开始采用变压器模型并大规模开发越来越强大的LLM之后。 大型语言模型的出现进一步推动了NLP模型设计、训练和使用方式的革命性范式转变。为了真正理解这一点,比较大型语言模型和以前的NLP模型以及它们是如何工作的可能是有帮助的。出于这个目的,让我们简单地探讨一下自然语言处理历史上的三个阶段:变形金刚之前的自然语言处理、变形金刚自然语言处理和LLM自然语言处理。 1.变形金刚之前的NLP主要是由依赖于人制定的规则而不是机器学习算法来执行NLP任务的模型来标记的。这使得它们适用于不需要太多规则的简单任务,如文本分类,但不适合更复杂的任务,如机器翻译。基于规则的模型在边缘情况下也表现不佳,因为它们无法对没有明确规则的前所未见的数据进行准确的预测或分类。这个问题在某种程度上可以用简单的神经网络来解决,如在这一时期后期发展起来的RNNs和LSTMs。rnn和LSTMs可以在一定程度上