您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:BloombergGPT:一个用于金融的大型语言模型 - 发现报告
当前位置:首页/行业研究/报告详情/

BloombergGPT:一个用于金融的大型语言模型

信息技术2023-04-04-未知机构阁***
BloombergGPT:一个用于金融的大型语言模型

1为金融BloombergGPT:一个大的语言模型吴诗杰1,∗Ozan我 ̇rsoy1,∗陆,史蒂文1,∗,瓦迪姆Dabravolski1马克Dredze1,2Sebastian Gehrmann1,Prabhanjan Kambadur1大卫·罗森博格1基甸,曼11彭博社、美国纽约2计算机科学,约翰霍普金斯大学,巴尔的摩,马里兰州 美国摘要NLP在金融技术领域的使用广泛而复杂,其应用范围从情感分析和命名实体识别到问答。大型语言模型(LLM)已被证明对各种任务有效;然而,文献中没有专门针对金融领域的法学硕士报道。在这项工作中,我们提出了BloombergGPT,一个 500 亿参数的语言模型,在广泛的财务数据上训练。我们基于彭博广泛的数据源构建了一个 3630 亿个代币数据集,这可能是迄今为止最大的特定领域数据集,并增加了来自通用数据集的 3450 亿个代币。我们验证BloombergGPT标准LLM基准,开放财务基准和一套最准确地反映我们预期用途的内部基准。我们的混合数据集训练导致一个模型在财务任务上显着优于现有模型,而不会牺牲一般LLM基准的性能。此外,我们还解释了我们的建模选择、训练过程和评估方法。下一步,我们计划发布培训日志(编年史),详细说明我们的培训经验。BloombergGPT.内容1介绍31.1BloombergGPT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .31.2 更广泛的贡献 ..42数据集52.1 金融数据集(363B代币 – 占训练的54.2%) .72.1.1 Web(298B 代币 – 42.01% 的培训) . ..72.1.2 新闻(38B代币 – 培训的5.31%) . .72.1.3 申请(14B代币 – 培训的2.04%) . ..72.1.4 按(9B代币 – 培训的1.21%) . .82.1.5 彭博社(5B代币 – 0.70%的培训) . .82.2 公共数据集(345B 代币 – 占训练的 48.73%) . .92.2.1 桩(184B 代币 – 训练的 25.9%) . .92.2.2 C4 (138B 代币 – 19.48% 的训练) . .92.2.3 维基百科(24B代币 – 3.35%的培训) . .92.3 标记化 .9∗。Co-first作者。arXiv: 2303.17564 v1 [cs。LG) 2023年3月30日 23113.1113.2123.3133.4144155165.1185.2185.3195.3.1外部金融任务 ........................................................................................................205.3.2内部的任务:情绪分析.............................................................................................225.3.3探索性任务:尼珥....................................................................................................235.4265.5265.6285.7295.8306317328378.1378.238938一个架构60A.060A.160A.261A.362A.462A.563B细节外部资金的任务64 31.介绍3 年 2020 年发布的 GPT-2020(Brown 等人,2020 年)证明了训练非常大的自回归语言模型 (LLM) 的强大优势。GPT-3 有 1750 亿个参数,比之前的 GPT-2 模型增加了一百倍,并且在现在流行的各种 LLM 任务中表现出色,包括阅读理解、开放式问答和代码生成。这种性能已在其他几种模型中复制(乔杜里等人,2022 年;斯考等人,2022;张等人,2022a)。此外,有证据表明,大型模型表现出紧急行为;生长使他们能够获得较小模型中不存在的能力(Wei 等人,2022a)。紧急行为的一个显着例子是通过少数镜头提示执行任务的能力,其中模型可以从几个示例中学习任务。随着语言模型大小的增加,这种能力的提高远高于随机性。从广义上讲,少数镜头提示极大地扩展了模型支持的任务范围,并降低了寻求新语言任务自动化的用户的进入门槛。在 GPT-3 之后,模型的规模增长到 2800 亿(Gopher,Rae 等人,2021 年)、540 亿只(PaLM,乔杜里等人,2022 年)和 1 万亿个参数(威震天、科蒂坎蒂等人,2022 年)。工作还探讨了实现高性能法学硕士的其他重要方面,例如不同的训练目标(Tay 等人,2022b)、多语言模型(Scao 等人,2022 年)、更高效和更小的模型(Black 等人,2022 年),以及查找数据和参数高效的训练规模(Hoffmann 等人,2022 年)。这些努力几乎完全集中在一般的LLM,在涵盖广泛主题和领域的数据集上进行培训。虽然这些数据集包括一些专业领域的数据集(例如,代码(Chen 等人,2021a)或生物医学文章 Gao 等人 (2021)),但重点是构建具有广泛能力的 LLM。最近仅使用特定领域数据训练模型的努力已经产生了模型,这些模型虽然要小得多,但在这些领域的任务上击败了通用法学硕士,例如科学泰勒等人 (2022) 和医学博尔顿等人 (2023);罗等人 (2022);雷曼等人 (2023)。这些发现激励了专注于特定领域的模型的进一步发展。金融科技(FinTech)是一个庞大且不断增长的领域,NLP技术的作用越来越重要 Xing et al. (2018);费舍尔等人(2016);Dredze等人(2016)。财务 NLP 任务 Shah 等人 (2022) 包括情感分析 Araci (2019)、命名实体识别 Salinas Alvarado 等人 (2015)、新闻分类 Sinha 和 Khandait (2020) 以及问答 Chen 等人 (2021b, 2022)。虽然任务范围与一般NLP基准测试中的任务范围相似,但金融领域的复杂性和术语保证了特定领域的系统。由于所有原因,生成LLM通常具有吸引力 - 少数镜头学习,文本生成,会话系统等。– 拥有专注于金融领域的法学硕士将是有价值的。虽然有针对金融领域 Araci (2019) 调整的屏蔽语言模型,但没有针对该领域的任务调整或评估 LLM。1.1BloombergGPT我们训练BloombergGPT,一个 500 亿参数的语言模型,支持金融行业内的各种任务。我们没有构建通用LLM,或者专门基于特定领域数据的小型LLM,而是采用混合方法。常规 4模型涵盖许多领域,能够在各种任务中执行高水平的操作,并避免在训练期间进行专业化。然而,现有特定领域模型的结果表明,一般模型无法取代它们。在彭博,我们支持非常庞大和多样化的任务集,由通用模型很好地服务,但我们绝大多数应用程序都在金融领域,由特定模型更好地服务。出于这个原因,我们着手建立一个模型,在财务基准上实现一流的结果,同时在通用LLM基准上保持竞争性能。我们通过构建迄今为止最大的特定领域数据集来实现这一目标,并利用彭博现有的数据创建、收集和管理资源。由于彭博主要是一家金融数据公司,我们的数据分析师在四十年的时间里收集和策划了金融语言文档。我们拥有涵盖一系列主题的大量财务数据档案,并仔细跟踪数据源和使用权限。我们将这些数据添加到公共数据集中,以创建一个包含超过 7000 亿个代币的大型训练语料库。使用该训练语料库的一部分,我们训练了一个 BLOOM 风格的 500 亿参数模型,该模型是根据 Hoffmann 等人 (2022) 和 Le Scao 等人 (2022) 的指南设计的。我们根据标准LLM基准,开放财务基准和一套最准确地反映我们预期用例的彭博内部基准来验证模型。我们的结果表明,我们的混合训练方法导致一个模型在域内财务任务上远远优于现有模型,同时在一般NLP基准上处于同等或更好的水平。1.2更大的贡献除了为财务数据构建法学硕士之外,我们的目标是为更广泛的研究界做出贡献。具体而言,我们在本文中记录的经验提供了证据,进一步发展了社区对文献中几个开放性问题的理解。特定领域的llm。少数现有的特定领域的LLM专门针对特定领域的数据源进行培训(Luo等人,2022;博尔顿等人,2023 年;Taylor 等人,2022 年),或者将非常大的通用模型适应特定领域的任务(Singhal 等人,2022 年;Lewkowycz 等人,2022 年)。到目前为止,我们的替代方法 - 在特定领域和一般数据源上培训LLM - 尚未得到研究。生成的模型在特定于域的任务上表现非常好,但在通用基准测试上也保持了强大的性能。训练数据。几乎所有语言模型在很大程度上都依赖于网络抓取的数据,例如 C4(Raffel 等人,2020 年)和 The Pile(Gao 等人,2021 年)(包括 OpenWebText2)。在使用之前,可以通过各种方式清理或子集这些数据 Touvron 等人 (2023);雷等人 (2020);曹等人(2022);Jernite 等人 (2022),但数据重复问题 Carlini 等人 (2020) 和有毒语言仍然存在 Welbl 等人 (2021)。我们的训练数据对于LLM培训来说是不寻常的,因为它包括来自可靠来源的大量策划和准备的数据。评估。法学硕士评估仍然是一个具有挑战性和不断发展的问题 格尔曼等人 (2022);Goyal 等人(2022 年),新的基准试图使评估标准化 5模型(梁等人,2022 年;斯里瓦斯塔瓦等人,2022 年)。但是,对于特定于域的任务,评估与实际用例之间仍然存在不匹配。评估建立在现有数据集的基础上,不一定基于模型在实践中的使用方式。我们提供了两个公共金融NLP基准的结果(Shah等人,2022;Chen 等人,2021b)以及一系列彭博内部任务,这些任务与我们的预期用例更加一致,并直接评估我们的模型执行感兴趣任务的能力。模型的尺寸。早期的LLM对200-4000亿的语料库进行了一次训练(Brown 等人,2020 年),Hoffmann 等人(2022 年)假设模型训练不足,而是专注于训练具有更多数据的较小模型,Touvron 等人(2023 年)最近提出了这一策略。我们选择了一个由 Hoffmann 等人 (2022) 激励的模型大小,并从我们超过 7000 亿个代币的语料库中的 5690 亿个代币上训练了一个 500 亿个参数模型,以生成一个与更大模型竞争的模型。分词器。组装训练数据后,标记化的关键步骤将文本转换为适合语言模型的格式。这一步的重要性经常被忽视 Mielke 等人 (2021) ,许多较旧的 LLM 使用相同的分词器和词汇,这意味着我们几乎没有证据支持其他分词器。 我们采用不同的方法,使用 Unigram 模型而不是贪婪的基于合并的子词分词器,因为它节省了概率,允许在推理时进行更智能的分词化(Kudo,2018)。模型建立的挑战。GPT-3 和后续模型是大型团队的工作,需要大量的计算。重现这些结果的初始工作,例如 OPT Zhang等人 (2022a),与原始模型的性能不匹配。随着每个后续模型的发布,社区的理解、经验和软件工具都会增加。在开发中BloombergGPT,我们受益于作为 BLOOM 工作的一部分开发的现有代码 Scao 等人 (2022),表明中等规模的团队可以在特定领域的数据上生成竞争模型。我们描述我们的经验培训BloombergGPT详细支持未来的培训工作并解决上述每个主题。2.数据集训练B