您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[美联储&卡内基梅隆大学]:全面召回?评估大型语言模型的宏观经济知识 - 发现报告

全面召回?评估大型语言模型的宏观经济知识

AI智能总结
查看更多
全面召回?评估大型语言模型的宏观经济知识

请引用本文: 2025年6月24日摘要我们感谢加里·康沃尔、安妮·汉森、董事会午餐会参与者以及2025年SGE会议的参与者提出的宝贵意见。我们感谢贝齐·弗兰科维奇的技术专长。此处所表达的观点仅为作者个人观点,不一定反映联邦储备系统或理事会的观点。联邦储备系统理事会卡内基梅隆大学总回忆?评估大型语言模型的宏观经济知识*Leland D. Crane†阿希尔·卡拉‡保罗·E·索托†我们评估了大语言模型(LLMs)估计历史宏观经济学变量和数据发布日期的能力。我们发现,LLMs对某些近期统计数据有精确的知识,但随着我们追溯到更早的历史时期,性能会下降。我们强调两种特别重要的召回错误:将初次发布数据与后续修订版本混淆(即跨年份平滑)以及将过去和未来参考时期的数据混淆(即年内平滑)。我们还发现,LLMs通常能够准确回忆单个数据发布日期,但跨系列整合显示,在任何一个给定日期,LLMs很可能认为自己掌握了尚未发布的数据。我们的结果表明,虽然LLMs具有令人印象深刻的准确召回能力,但它们的错误表明,在用于历史分析或模拟实时预测者时存在一些局限性。 1 简介1召回我们使用术语当LLM估计一个历史数量,该数量(据推测)包含在其训练数据中。这与检索增强生成上下文中的“检索”不同,在检索增强生成中,LLM由搜索引擎和参考文档支持。我们的关注点在于孤立的LLM,以及它能够准确估计哪些历史事实。聚焦于GDP,我们发展出证据,表明LLM估计值是参考期内首印值与该参考期内后续修订值的混合。这种跨数据年份的平滑化效果,无论我们要求LLM提供首印值还是完全修订值,都同样存在。LLM是在大量数据上训练的,除非语料库的每个部分都有明确的日期戳,并且相关信息大型语言模型(LLM)的兴起引发了人们对其如何用于经济分析和预测的兴趣(例如,)科里尼克2023)。大型语言模型的效用取决于它们对经济学相关事实的理解以及它们精确遵循指令的能力。我们在与这些能力相关的几个维度上评估大型语言模型。首先,大型语言模型从过去估算重要宏观经济变量的程度如何?其次,大型语言模型的估算在多大程度上受到未来信息的影响?第三,大型语言模型日期召回数据发布?拥有准确经济历史知识(包括数据发布日期)的大型语言模型在生成假设和分析时可能更有用。另外,如果大型语言模型能提供逼真的准实时估计——模拟过去的预测者——那么我们就能更好地理解大型语言模型的预测过程与人类预测的关系。另一方面,不准确或存在前瞻性偏差的大型语言模型估计可能用途有限。我们发现对于某些变量,LLMs具有惊人的召回率。1我们关注的LLM——Claude Sonnet 3.5——能够以相当高的精度回忆失业率和CPI的季度值,追溯到二战时期。然而,在波动性更大的实际活动系列,如实际GDP增长和工业生产(IP)增长上,它的表现要差得多。LLM似乎遗漏了这些系列中的许多高频波动,尽管它很好地捕捉了商业周期的变化。 1 2我们的结果描绘了当前大语言模型能力的复杂图景。大语言模型对历史数据值和发布日期的召回率通常非常令人印象深刻。然而,也有显著的由训练过程嵌入在模型权重中——它不会总是清晰地表明文本的写作时间或所指的经济增长率年份。首次印刷和完全修订数据的混合是一个问题,因为它意味着(1)模型对经济状况的回顾性理解不够准确,以及(2)模型将难以模拟实时预测者。日期最后,我们记录了LLM对经济数据发布的知识我们发现,大型语言模型通常对历史数据发布的时间有准确的概念。然而,有时它们会错过真实发布日期几天。结果也对提示的细节敏感;我们发现,改变提示以减少估计数量晚早期发布日期是导致估计发布日期增加过高我们的提示工程并没有带来提升精度到非常高水平的策略;相反,我们最终在不同类型的错误之间进行了权衡。结论是,大型语言模型并没有非常清晰地理解单个数据的发布日期。我们发现——跨主要经济指标进行汇总——在典型的一天里,大型语言模型有很大可能会错误地认为至少有一些主要数据已经发布。有趣的是,这些错误恰好是人类可能犯的错误类型:有时过早,有时过晚,并且试图减少一种类型的错误会增加另一种。一个相关但不同的问题是,对于给定的参考期,LLM估计是否会受到未来和过去参考期的影响,同时保持版本不变。在另t词语,是受发布数据影响的日期发布的数据的LLM估计值+t从1? 我们开发了一个测试,用于判断大型语言模型的特定日期估计是否受到系列未来冲击的影响,同时控制了预期。我们发现有迹象表明,在构建估计时,大型语言模型确实使用了未来参考期间的价值,即便被指示忽略未来信息。任何此类平滑处理再次对历史分析和使用大型语言模型模仿实时预测者构成挑战。 32 文献综述最近的一些论文已经使用LLMs进行经济预测和分析。金等人(2024) 发现当一个LLM被匿名会计数据提示时,它可以预测公司收益。库克等人(2023) 使用LLMs分析财报电话会议。Pham和Cun-ningham(2024) 提供了样本外(即知识截止日期后)的通胀和奥斯卡颁奖典礼预测。施耐格格等(2024) 显示 GPT4 能够帮助人类预测者在各种金融和政治预测任务上取得进展,所有这些进展都发生在知识截止点之后。同样,phan et al.(2024)比较 LLM 预测与众包预测。Jha 等人(2024) 将收益电话会议纪要输入到GPT3.5中,并展示它可以帮助预测资本投资和异常收益。作为他们稳健性测试的一部分,他们将样本限制在知识截止日期之后,并分别尝试对纪要进行匿名化处理。格拉瑟曼和林(2023)检验GPT3.5从新闻标题预测股票收益的能力;他们匿名化公司名称以避免样本内“干扰”效应。法里亚-埃-卡斯特罗和莱波维茨(2023) 在知识截止点之前和之后评估大语言模型(LLM)的通货膨胀预测。扎里夫霍纳瓦尔(2024)研究不同的提示以及获取不同信息如何影响GPT4的通货膨胀预期。此外,文献中有一部分将大型语言模型用作调查或策略游戏中的人类替代品(Manning 等人(2024),卡兹尼尼克(2024),特拉切罗等人(2024).)汉森等(2024)同时为两个领域做出贡献,模拟专业预测者(SPF)受访者并评估由LLM生成的预测的性质。最后,一些论文使用LLM作为分类器对新闻标题等进行分析,然后使用这些分类来构建指标LLM召回的缺点,并且错误通常与参考日期之后的信息相关。在宏观层面上,这些错误非常符合人类特点,因为它们可以被解释为一种诚意去遵循指令的努力,同时受到对过去的模糊记忆的阻碍。这些模式表明,前瞻性偏差可能是使用LLM时一个重要的挑战。 4评估前瞻偏差很困难。大型语言模型吸引了预测者们的注意。我们论文也关注前瞻偏差;我们通过对几种在实际中很重要的前瞻偏差类型进行量化来为文献做出贡献,例如LLM对首版数据的记忆被后续修订污染以及数据发布时间的不确定性。我们还开发了一个测试,用于判断LLM的估计是否被未来的数据值污染。许多这些论文承认前瞻性偏差——一个LLM的潜力+t t据称模仿一个在时间t行动的智能体使用信息1 或更高版本——并试图通过匿名化、知识截止日期后比较和提示技术来解决这个问题。对于直接衡量前瞻偏差的程度,所做的较少。2Sakar和Vafa(2024)是一个例外,它们表明在两种情况下前瞻性偏差会出现,其中GPT4被要求充当实时预测者:首先,在评估疫情前收益电话会议中的风险因素时,LLM有时会提及大流行病和Covid。其次,LLM通常能够“预测”接近选举的赢家。Lopez-Lira等人(2025)评估金融宏观经济变量的召回率和前瞻性偏差;有趣的是,他们关于召回准确率的召回率估计值高于我们,这表明存在一些模型或提示特定的效应。我们通过开发更正式的宏观经济环境下的数据泄漏检验方法,并探索大语言模型对数据发布日期的理解——这是一个对实时预测至关重要的因素——来补充这些论文。路德维希等(2025)也讨论了前瞻偏差,背景是国会立法和财经新闻。为解决这些问题Sarkar(2024)和他等(2025) 开发仅在已知时间点之前的数据上训练的LLM序列,但当然这些模型远小于市面上的模型,并且确实拥有前沿模型可用的完整功能集。2看克罗什(2011) 用于详细讨论传统预测中数据修订和预测不稳定性的相关主题。像情感指数(沙皮罗等,2022;贝比,2023;卡尼尔等,2024;范·宾斯伯根等人,2024). 53 模型和数据正是因为有理由认为它们可能对预测有用。这意味着,在预测方面的高准确性不能被视为前瞻性偏差的强有力证据;我们应该预期大型语言模型(LLMs)能够超越一些其他预测。在本文中,我们采用了一种间接的方法,关注大型语言模型(LLMs)对历史数据值的回忆。召回ues发布日期。看起来更容易证明错误受到未来影响预报比证明一个更困难的信息是“过于精确”。注意汉森等(2024) 使用宏观指标的近期值提示大语言模型,以校准它并帮助提高性能;该策略还可以帮助减轻前瞻性偏差。我们的工作通过记录原始大语言模型在未向提示中传递额外信息时的能力和局限性来补充他们的工作。对于论文的大部分内容,我们关注四个宏观经济时间序列:国内生产总值、通货膨胀、工业生产和失业率。类似于汉森等(2024), 我们将注意力限制在季度值上,以便能够与SPF进行比较。该序列的详细信息如下:我们的评估超越了前瞻偏差的主题,因为我们测试了LLM是否能准确回忆经济统计数据。一位使用LLM探索经济假设的分析师希望模型对经济史有清晰的精确理解。记录回忆的程度以及LLM知识的局限性将有助于研究人员考虑如何使用这些工具。• 国内生产总值(GDP):实际GDP的季节性调整年度化一个季度增长率 • 通货膨胀:季节性调整的居民消费价格指数(CPI)的四个季度变化 • 工业生产(IP):工业生产的季节性调整年度化一个季度增长率 值得注意的是,提示的开发是一个迭代过程。我们最初的3.1 模型我们使用完整修订(当前年份)的数字,以及首次印刷的价值。3.2 方法论• 失业率:季节性调整后的失业率季度平均值我们的主要问题指示大语言模型逐步思考,写出他们的推理过程,并在最后只写出最终答案。这是为了提高性能,因为大语言模型在做出回答之前可以从逐步推理中受益(魏等,2022)。系统提示可以在图中找到18, 且示例用户提示如图所示19.我们使用通过 AWS Bedrock 提供的 Anthropic 的 Claude Sonnet 3.5 大型语言模型。十四行诗3.5被广泛认为与OpenAI的同期产品相当(尽管它没有o1及后续模型的推理能力),并且在基准测试中表现优异。请注意,该模型未启用互联网搜索或工具使用功能;除了提示中包含的信息外,它无法获取任何更新数据。我们不使用OpenAI的模型,因为我们没有便捷的方式访问它们。3模型ID是 anthropic.claude-3-5-sonnet-20240620-v1:0。这是原始的Sonnet 3.5,不是2024年10月发布的更新版Sonnet3.5。针对查询的回复内容冗长。我们使用一个次要的“摘要”LLM和提示语从回复中提取估计值。摘要被指示阅读原始回复并返回一个形式大约为“Answer:{估计值}”的答案,其中{估计值}是期望的估计值。然后我们用正则表达式(regex)解析摘要的答案以提取数值点估计。 6 3 73.4 选择温度3.3 答案中的非确定性在典型使用中,LLM的响应是随机的。LLM一次生成一个token作为响应,所生成的token是取决于到目前为止的文本——无论是提示还是不完整的响应。4LLM通过从模型下一个token的概率分布中进行采样来生成token,因此更可能的补全会被更频繁地选择。我们需要评估温度参数在我们的上下文中有多重要,以及应该设置为多少值。图1展示两个GDP估计值:一个将温度设置为1(默认值),一个将温度设置为0。5这两个系列极其相似。我们对每个查询进行多次运行并计算平均估计值,以减弱LLM响应中的随机性。我们还计算该平均估计值的标准误差,并使用它来绘制置信区间。平均响应接近确定性,置信区间显示我们仍然在哪里存在