您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [英伟达]:大语言模型新手入门指南 - 发现报告

大语言模型新手入门指南

2023-12-31 英伟达 王月
报告封面

Part 1 贡献者:Annamalai Chockalingam Ankur Patel ShashankVerma Tiffany Yeung 目录 前言.......................................................................................................................................................3 术语表......................................................................................................................................................5 大型语言模型的介绍..................................................................................................................................8 什么是大型语言模型(LLM)?..........................................................................................8 基础语言模型与微调语言模型 ......................................................................................11 大型语言模型的演变 .................................................................................................11 神经网络.............................................................................................................................12 转换器..................................................................................................................................14 企业如何从使用大型语言模型中获益.................................................................20大型语言模型的挑战 ...............................................................................................21 如何构建LLMs.............................................................................................................................21 如何评估LLMs........................................................................................................................22 LLM领域的知名公司..................................................................................................23 流行的初创公司开发的大型语言模型应用程序................................................................................................23 前言 语言数千年以来一直是人类社会的重要组成部分。 长期存在的理论,喉下降理论或LDT,认为言语,以及语言,可能在大约20万或30万年前进化,而新的研究表明它可能已经发生即使更早. 无论其何时首次出现,语言仍然是人类交流的基石。在当今数字化时代,语言发挥着更加重要的作用,前所未有的庞大人口能够通过文本和语音在全球范围内进行沟通。 This is underscored by the fact that 347.3 billion电子邮件消息每天在全球范围内发送和接收,并且有五十亿人——或者说占世界总人口超过63%——发送和接收短信. 语言因此成为了一个庞大的信息宝库,能够帮助企业提取有价值的洞察,识别趋势,并做出明智的决策。例如,企业可以通过分析顾客评论等文本,识别其产品的畅销特性,并优化未来的产品开发。 同样地,语言生产——与语言相对分析– 也是一个越来越重要的企业工具。例如,创建博客文章可以帮助企业以前所未有的程度提高品牌知名度,而撰写邮件则可以帮助它们以无与伦比的速度吸引新的利益相关者或合作伙伴。 然而,语言分析和生成都是耗时过程,会分散员工和决策者的注意力,使其无法专注于更重要的任务。例如,领导者往往需要筛选大量文本才能做出明智决策,而不是基于提取的关键信息进行决策。 企业可以通过采用...来最小化这些问题和其他问题,例如人为错误的风险。大型语言模型 (LLMs)对于语言相关任务。大型语言模型可以帮助企业加速并很大程度上自动化他们在语言生产和分析方面的努力,节省了宝贵的时间和资源,同时提高了准确性和效率。 与之前的解决方案不同,例如基于规则的系统,大型语言模型具有极高的多功能性,可以轻松适应各种与语言相关的任务,例如生成内容或总结法律文件。 这本书的目标是帮助企业理解与以往解决方案相比LLMs为何具有革命性,以及企业如何能从采用或开发它们中获益。它还旨在通过概述LLMs开发、培训和部署的最关键步骤,帮助企业抢占先机。 为实现这些目标,本书分为三个部分: Part 1定义了大型语言模型(LLMs),并概述了多年来促成其发展的技术与方法论进步。此外,本书还探讨了更实用的议题,例如企业如何开发自身的LLMs以及LLM领域的最知名公司。这将有助于企业理解采用LLMs如何解锁尖端可能性,并革新其运营。 >第二部分讨论了企业在内使用大型语言模型(LLMs)的五个主要用例,包括内容生成、摘要和聊天机器人支持。每个用例都通过实际应用和案例研究进行例证,以展示大型语言模型如何解决实际问题并帮助企业实现特定目标。 >第三部分它是一本面向希望构建、训练和部署自有LLM企业的实用指南。书中概述了必要的先决条件以及不同开发与部署方法可能带来的权衡。机器学习工程师和数据科学家可以在其LLM开发过程中参考使用。 希望这能激励尚未采用或开发自有大型语言模型的 enterprises 尽快行动,以获取竞争优势并推出新的 SOTA 服务或产品。通常情况下,最大的好处将保留给早期采用者或真正具有远见的 innovators。 词汇表 LLMs的介绍 大型语言模型是一种人工智能(AI)系统,能够根据其从海量数据中学习到的模式和关系生成类似人类的文本。大型语言模型 使用一种名为深度学习的机器学习技术来分析和处理大量数据集,例如书籍、文章和网页。 大型语言模型为自然语言处理和人工智能领域解锁了众多前所未有的可能性。这最显著地体现在OpenAI于2020年发布的GPT-3,当时它是开发过的最大语言模型。 这些模型旨在理解文本的上下文和含义,能够生成语法正确且语义相关的文本。它们可以在广泛的任务上进行训练,包括语言翻译、摘要、问答和文本补全。 GPT-3清楚地表明,大规模模型能够精确地执行一系列广泛且此前闻所未闻的自然语言处理任务,从文本摘要到文本生成。它还表明,大型语言模型能够生成几乎无法与人类创作的文本区分的输出,并且几乎无需人工干预即可自行学习。 这相较于早期的基于规则的模型而言,实现了巨大的改进,这些模型既无法自主学习,也无法成功解决未经训练的任务。因此,许多其他企业和初创公司很快开始开发自己的大型语言模型(LLMs)或采用现有的LLMs,以加速运营、降低成本和简化工作流程,这也就不足为奇了。 第一部分旨在为考虑建立或采用自己的大型语言模型的任何企业提供坚实的基础和介绍。 什么是大型语言模型(LLMs)? 大型语言模型(LLMs)是基于在极大规模数据集上训练所获得的知识,能够识别、提取、摘要、预测和生成文本的深度学习算法。 它们也是更广泛技术——语言模型的子集。所有语言模型都有一个共同点:它们能够处理和生成听起来像自然语言文本。这被称为执行与自然语言处理 (NLP). 尽管所有语言模型都能执行自然语言处理任务,但它们在其他特征上有所不同,例如它们的规模。与其他模型不同,大型语言模型被认为大因为两个原因而规模扩大: 1. 它们使用大量数据进行训练。 2. 它们包含大量可学习的参数(即,表征训练数据底层结构,有助于模型在新的或从未见过数据上执行任务的形式)。 表1展示了两种大型语言模型MT-NLG和GPT-3 Davinci,以帮助阐明什么是大根据当代标准。 由于模型的质量很大程度上取决于模型大小和训练数据的大小,因此较大的语言模型通常比它们的小型对应物生成更准确和复杂的响应。 然而,大型语言模型的性能不仅取决于模型大小或数据量。数据质量也很重要。 例如,在同行评审的研究论文或已出版的小说上训练的大型语言模型通常比在社交媒体帖子、博客评论或其他未经审查的内容上训练的模型表现更好。低质量数据(如用户生成内容)可能导致各种问题,例如模型学会使用俚语、学习单词的正确拼写错误等等。 此外,模型需要非常多样化的数据才能执行各种NLP任务。然而,如果模型旨在特别擅长解决特定的一组任务,那么微调它使用一个更相关且更窄的数据集。这样做会将基础语言模型进行转换——从一个在广泛领域内执行各种NLP任务的良好模型,转变为一个专门在狭窄范围内的领域执行任务的精调模型。 基础语言模型与微调语言模型 基础语言模型, 例如上文提到的MT-NLG和GPT-3,就是通常在讨论LLMs时所指的内容。它们在大量数据上进行训练,能够执行多种NLP任务,从回答问题、生成书籍摘要到完成和翻译句子等。 得益于其规模,基础模型即便在掌握少量特定领域数据的情况下也能表现良好。它们在各项任务上具有出色的通用性能,但可能在任何单一特定任务上都无法做到极致。 微调语言模型另一方面,是源自基础大型语言模型的大语言模型。它们针对特定用例或领域进行定制化,因此,在执行更专业的任务方面表现得更为出色。 除了微调模型在特定任务上表现优于基础模型这一事实外,它们最大的优势在于更轻量,并且通常更容易进行训练。但如何才能实际地对基础模型进行微调以实现特定目标? 目前,最受欢迎的方法是使用参数高效微调技术(如p-tuning、提示微调、适配器等)来定制模型。相比于微调整个模型,定制所需的时间和成本要低得多,尽管这可能导致性能略低于其他方法。定制方法将在下文进一步讨论。第 3 部分。 大型语言模型的演进 AI系统在历史上主要关于处理和分析数据,而非生成数据。它们更倾向于感知和理解我们周围的世界,而非生成新信息。这一区别标志着它们之间的主要不同。敏锐的and生成式人工智能,后者自2020年左右开始,或随着公司开始采用Transformer模型并大规模开发越来越强大的大语言模型,正变得越来越普遍。 大型语言模型的兴起进一步推动了自然语言处理模型设计、训练和应用的革命性范式转变。要真正理解这一