AI智能总结
大型语言模型(LLMs)是分析文本数据的强大工具,在经济和中央银行应用方面具有巨大的未开发潜力。庞大的文本档案,包括政策声明、财务报告和新闻,提供了丰富的分析机会。本文特别特征旨在为经济学家提供一个易于理解的LLMs入门介绍,并为应用研究人员提供其实用的操作指南。我们提供了从数据组织、信号提取、定量分析到输出评估的LLMs使用步骤详解。作为示例,我们基于2021年至2023年间超过60,000篇新闻文章,应用该框架分析股票市场动态的主要驱动因素。虽然宏观经济和货币政策新闻至关重要,但市场情绪同样产生了重大影响。 JEL 分类 : C55 , C63 , G10 。 大型语言模型(LLMs)代表了机器学习技术在自然语言处理(NLP)领域的一项突破性应用。机器学习算法擅长对无结构数据施加数学结构。它们通过将文本、语音或图像转换为数字数组,即向量,来实现这一过程。这种“嵌入”过程具有广泛的应用,因为它将复杂的无结构数据转化为适合数学操作和统计分析的结构化数据。LLM技术可以支持多种应用场景,包括预测、即时预测和监控,以及新闻、社交媒体和政策报告的情绪分析。对于习惯于处理结构化数值数据的经济学家和中央银行决策者而言,LLMs是他们工具箱中的强大补充。 本入门课程提供了有关 LLM 技术的可访问指南 , 并强调了经济学家的关键考虑因素。2我们涵盖的主题包括模型选择、预处理技术、主题建模、定量分析以及人类判断的参与。本指南针对中央银行家常遇到的应用场景进行定制,但其适用范围广泛,适用于任何涉及文本数据的社会科学领域。为了展示其实用性,我们将指南应用于分析美国股票价格的感知驱动因素,并提供了配套的示例代码,可在GitHub仓库中获取。在线词汇表提供了关键技术术语的定义。 关键要点 •LLMs在组织文本数据成结构化的向量形式方面表现出色。充分挖掘其潜力需要精心规划、良好的研究设计以及对工具限制的认识。 •常见的误区包括:(i)对LLMs能力的不切实际期望,(ii)计算资源管理不当,以及(iii)在评估输出时不足的人类判断。•我们讨论了一些在部署大语言模型(LLMs)方面的最佳实践,包括:(i)模块化的 workflows,(ii)明智选择 LLM 工具,以及(iii)为更复杂的任务提供充足的训练数据和示例。 我们首先介绍支撑大型语言模型(LLMs)的关键技术。然后,我们展示其应用的简化工作流程,并突出最佳实践和常见陷阱。接着,我们通过隔离美国股市变动的感知驱动因素来具体实施这一工作流程。最后,我们进行总结。 大型语言模型简介 中心思想 机器学习技术在对无结构数据施加数学结构方面表现卓越。在自然语言处理(NLP)的背景下,这涉及将单词投影到向量空间中——这一过程称为词向量化。嵌入.词与词之间的关系则通过向量空间中的欧几里得距离来表示,距离越小表示语义关系越密切。“football”的词嵌入与其更接近“basketball”,而与“monsoon”的距离更大,“monsoon”则更接近“cloud”。这些嵌入允许使用代数技术来表达词语之间的关系(参见BIS (2024))。对于 ⃗ ⃗ 例如 , 国家和首都的嵌入将服从 :=⃗ + , 与首尔之于韩国的关系类似,马德里之于西班牙也是如此 。同样地,简单的线性代数也适用,例如: ⃗⃗ ⃗⃗ 首尔-韩国=马德里-西班牙。此外,句子、段落或任何一组词语的嵌入可以作为词嵌入的加权和来表示它们的集体含义(Arora等人,2017年)。嵌入开辟了将数学工具应用于语言的可能性,从而增强了诸如情感分析、翻译、句子补全和命名实体识别等任务(例如,将国际清算银行视为一个整体单位,而非四个独立单词)。使用嵌入将文本数据映射为数值形式对于后续分析至关重要。早期神经网络3对于 NLP (例如 Word2vec (Mikolov 等人 (2013))) 分配了一个独特向每个词分配向量。这些方法在当时是重要的进步,自 inception 以来,经济学家们广泛采用了这些方法。4然而 , 这种一对一的映射有一个重要的缺点 - 它不能识别单词的含义随上下文而变化。它可能会遇到诸如 “银行提高利率以降低通货膨胀 ” 之类的句子。正确推断 “bank” 指的是“中央银行”而非“河岸”或“商业银行”,需要考虑该句中给出的上下文单词,即“raises”和“rates”。 以下内容赋予了大型语言模型(LLMs)在相对于早期自然语言处理(NLP)方法方面的优势,即一种名为变压器架构的神经网络(参见方框A)。这一突破性进展基于单词在其上下文中的位置创建词嵌入,使嵌入能够捕捉单词在其周围文本整体上下文中的含义,而不仅仅是其字典形式。5例如,变换器架构会将“bank”(金融)和“money”的嵌入表示放得更近,因为它们经常出现在相似的语境中;而“bank”(河岸)则会与“money”保持较远的距离,并接近“meadow”。此外,大型语言模型会考虑句子中的词序,使其能够清晰地区分“银行提高利率以降低通胀”与“银行下调利率以提高通胀”这两种情况。 技术 原始变压器模型包含两个组件:编码器,它将输入语言转换为嵌入向量;解码器,它将嵌入转换为输出语言。当前的大型语言模型(LLM)借鉴了这两种组件之一——编码器如双向变压器编码表示(BERT)中的那样,或者解码器如生成预训练变压器(GPT)中的那样。每种组件各有优势。GPT顺序使用每个词的前文来创建其上下文嵌入,并可用于生成文本。这一自我生成的过程类似于自回归模型能够进行递归预测的方式。相比之下,BERT不仅使用前文还使用后文。一起采取为了为每个词创建嵌入,这类似于使用整个样本来进行计量经济推断。尽管GPT更为人所熟知,但它未必在所有任务上都更优越。在许多经济学应用中,BERT可能更适合进行定量分析,因为它利用后续文本来推断上下文(例如,Gambacorta等人(2024))。 经济学家可以利用大型语言模型(LLMs)更准确、高效地分析大量文本数据。这些模型并非空白的起点,因为它们的参数是通过从互联网下载的大规模数据集进行前期估计得出的——这一过程通常被称为预训练。预培训经济学家可以直接使用这些预训练模型来嵌入文本进行分析。或者,他们可以使用经济文本数据重新估计或修改LLM参数,类似于任何计量经济学模型的过程。这一过程被称为微调调整LLM以适应特定的经济数据和研究问题,从而产生更为准确和相关性的预测。 相反,经济学家可以利用LLM(如ChatGPT、Claude、Gemini等)的聊天机器人版本,并直接通过聊天界面或应用编程接口(API)提出问题。这种方法不调整模型参数,而是通过提示(prompting)为用户提供更多背景信息和指导,从而获得改进的回答。上下文学习(B盒). 虽然这种方法允许使用简单的英语或其他任何自然语言,但管理响应的一致性和质量以产出稳健的研究成果可能会颇具挑战。 Box A 变压器型号 变压器是支撑当前所有大规模语言模型(LLM)的核心技术。它们是非线性的参数模型,旨在生成单词的嵌入表示并识别其上下文。变压器架构的核心在于两项创新:多头注意力and位置编码这个框描述了这两种机制如何共同作用,将一对一词嵌入转换为上下文向量嵌入(图A1)。(BIS 2024, 第三章(框B)) 注意力机制使文本中的每个单词都能根据其他所有单词进行解释,增强了考虑文本中上下文和关系的能力。该机制是“多头”的,因为它使用了多个并行的注意力层来捕捉同一个词的不同含义(图A1中的紫色层)。例如,在句子“I sat on the south bank of the river Main overlooking the European Central Bank”中,每个“bank”一词都会根据其周围的单词映射到不同的向量表示。第一个“bank”会更接近“water”,而第二个“bank”则会更接近“inflation”。注意力机制通过分数向量或注意力权重来量化“bank”与上下文中所有单词之间的相似性。从数学角度来看,这些是“bank”嵌入向量与其所代表的文本中每个单词的关键向量(包括“bank”本身)之间的点积。 位置编码(图A1中的橙色块)使变压器能够同时处理数据而非顺序处理,从而缓解了早期神经网络模型面临的關鍵约束。通过为每个单词嵌入位置信息,变压器保持了词序,并实现了并行训练。这反过来允许使用更多数据进行训练,并构建更大的模型,从而提高了性能。 图 A1 资料来源 : 作者阐述。 变换模型的特点包括四个关键特征:训练数据的规模、嵌入向量的大小、上下文窗口(即批量处理的文本长度)以及参数的数量。随着这四个因素的增加,嵌入的质量通常会提高,其中训练数据的规模最为重要。参数通过大量文本数据进行估计,这些数据源自互联网的Common Crawl等来源,其中包括书籍、网络内容、社交媒体帖子、新闻文章等(总计570GB,从原始文本的45TB中清理出来)(Brown等,2020)。这种广泛的训练使变换器能够将任何给定其上下文的句子映射到向量。然而,只有少数组织拥有足够的计算资源和数据,从头开始训练这些非常大的模型。因此,大多数用户应用开源LLM或通过API访问专用模型,并称之为预训练或基础模型。 Box B 上下文学习和提示 基于 LLM 的聊天机器人可以通过 API 直接提问 - 一种称为上下文学习由于这并不改变LLM的参数,例如,可以要求聊天机器人评估句子的情感。这种方法跳过了经济学中通常涉及建立统计模型、收集数据并对其进行操作以进行诊断、因果推断或预测的常规实验程序。尽管传统的实验程序通常在有足够的数据时能提供更好的预测结果,但LLM聊天机器人(如ChatGPT、Claude、Gemini等)能够产生出人意料的满意结果。然而,这在很大程度上取决于问题是如何被提出——这一过程被称为问题构建。提示提示聊天机器人的方法主要有三种。 最简单的方法是直接问问题 , 例如 :中性偏谨慎乐观。这种方法 , 被称为零 - 镜头促使这一现象发生的是LLM现有的训练机制。然而,结果可能与研究目标不完全匹配,特别是在任务具有主观性和特定领域特征的情况下。 为了提高准确性 , 可以在提示中添加示例 , 例如 :我将 [句子 1] 归类为鹰派 , [句子 2] 归类为鸽派 , [句子 3] 归类为中立 , … …This少量射击提示方法(Brown等(2020))通过引导模型使用示例来提升性能。更多示例可以进一步提高大语言模型(LLM)的性能。 第三种方法向聊天机器人本身解释了研究人员的决策过程 , 例如 :我会将[Sentence1]归类为鹰派,因为[Reason1];将[Sentence2]归类为鸽派,因为[Reason2];将[Sentence3]归类为中性,因为[Reason3]。. This思想链 (CoT)逐步提示已被证明在某些任务中优于少量示例提示,通过引导大语言模型进行逐步推理过程来帮助它们产生更准确的响应(Wei等,2022)。 基于聊天机器人的大语言模型在研究应用中存在若干局限性。一旦上下文被重置,聊天机器人会忘记之前的提问和示例。此外,重要的是要强调,基于大语言模型的聊天机器人可以预测统计上合理的结果,但不能保证事实上的准确性。因此,人类监督对于解释和验证结果至关重要。由于提示的变化可能会改变结果,研究人员应在可能的情况下使用验证数据测试多个提示。 让 LLM 工作 为了展示如何利用大型语言模型(LLMs),我们详细阐述了一个步骤化的 workflows,类似于计量经济学家的工作流程,并讨论了LLM工具如何增强分析大规模非结构化文本数据的能力。6工作流包括以下步骤 : 1.数据组织 :正如经济学家在开展实证项目时会收集和清洗数据一样,文本分析始于文本检索、预处理,并且还包括向量嵌入。 2.信号提取下一步是提取数据中的关键信息内容,类似于经济学中的主成分分析(PCA)或趋势过滤。这是因