AI智能总结
请引用这篇论文: 2025年6月24日摘要我们感谢加里·康沃尔、安妮·汉森、董事会午餐会参与者以及2025年SGE会议的参与者提出的宝贵意见。我们感谢贝齐·弗兰科维茨的专业技术。此处表达的观点仅为作者个人观点,不一定反映美联储系统或理事会的立场。联邦储备系统理事会卡内基梅隆大学总回忆?评估大型语言模型的宏观经济知识*莱兰·D·克雷恩†阿希尔·卡拉‡保罗·E·索托†我们评估了大型语言模型(LLM)估计历史宏观经济变量和数据发布日期的能力。我们发现,LLM对某些近期统计数据有精确的知识,但随着历史追溯,性能会下降。我们强调两种特别重要的回忆错误:将首次发布数据与后续修订混淆(即跨年份平滑)以及将过去和未来参考期的数据混淆(即年内平滑)。我们还发现,LLM通常可以准确回忆单个数据发布日期,但跨系列汇总显示,在任何给定的一天,LLM很可能认为自己掌握了尚未发布的数据。我们的结果表明,虽然LLM具有令人印象深刻的准确回忆能力,但它们的错误表明在用于历史分析或模拟实时预测者时存在一些局限性。 1 简介1召回我们使用术语当LLM正在估计其在训练数据中(推测)存在的某个历史数量时。这与检索增强生成上下文中的“检索”不同,在检索增强生成中,LLM由搜索引擎和参考文档支持。我们的关注点在于孤立状态下的LLM,以及它能够准确估计哪些历史事实。聚焦GDP,我们发展了证据,证明LLM估计值是由参考期的初次公布值和该参考期的后续修订值混合而成的。这种跨数据年份的平滑处理,无论我们要求LLM提供初次公布值还是完全修订值,都出现。LLM在巨量数据上进行训练,并且——除非语料库的每个部分都有清晰的日期标注以及该信息大型语言模型(LLM)的兴起激发了人们对其如何用于经济分析和预测的兴趣(例如,Korinek 2023). LLMs的效用取决于它们对经济相关事实的理解以及它们精确执行指令的能力。我们在与这些能力相关的几个维度上评估LLMs。首先,LLMs如何从过去估计重要的宏观经济变量?其次,LLMs的估计在多大程度上受到未来信息的影响?第三,LLMs日期召回数据发布拥有准确经济史知识(包括数据发布日期)的大型语言模型在生成假设和分析时可能会更有用。另外,如果大型语言模型能够提供逼真的准实时估计——模拟过去预测者——那么我们就能更好地理解大型语言模型的预测过程与人类预测的关系。另一方面,不准确或受到提前看偏差污染的大型语言模型估计可能用途有限。我们发现对于某些变量,LLMs具有出色的召回率。1我们关注的LLM——Claude Sonnet 3.5——能够相当准确地回忆失业率和企业物价指数(CPI)的季度值,追溯到第二次世界大战时期。然而,它在更易波动的实际活动序列(如实际GDP增长和工业生产(IP)增长)上的表现要差得多。该LLM似乎遗漏了这些序列中许多高频波动,尽管它能很好地捕捉商业周期变化。 1 2我们的结果描绘了当前大模型能力的复杂图景。大模型对历史数据值和发布日期的召回率通常非常令人印象深刻。然而,也存在显着差异。由训练过程嵌入模型权重中——写入文本的时间或所指GDP年代可能并不总是清晰。首次印刷和全面修订数据的混合是有问题的,因为这意味着(1)模型对经济状况的回顾性理解不够准确,(2)模型将难以模拟实时预测者。日期最后,我们记录了大语言模型对经济数据发布的知识我们发现大语言模型通常能准确知道历史数据发布的时间。然而,它们有时会错过实际发布日期几天。结果对提示的细节也很敏感;我们发现通过改变提示来减少估计的数量晚早期发布日期导致估计发布日期过多我们的提示工程并未带来将准确率提升至极高水平的策略;反而我们最终在不同的错误类型之间进行了权衡。结论是大型语言模型并没有一个很强烈的对单个数据发布日期的概念。我们发现——在主要经济指标的综合情况下——在典型的一天中,大型语言模型有很好的可能性会错误地认为至少一些主要数据发布已经发生。有趣的是,这些错误正是我们预期人类会犯的那种错误:有时过早,有时过晚,并且试图减少一种类型的错误会增加另一种类型的错误。一个相关但不同的问题是,对于给定的参考期,LLM估计是否会受到未来和过去参考期的影响,同时保持版本不变。在另t词语,是受发布数据影响的日期发布的用于发布数据的值LLM估计+t从1?我们开发了一个测试方法,用于判断LLM对特定日期的估计是否受到系列未来冲击的影响,同时控制了预期。我们发现了一些证据表明,LLM在构建估计时确实会使用未来参考期的数值,即使被指示忽略未来信息。任何此类平滑处理再次给历史分析带来了挑战,并且使用LLM来模仿实时预测者也存在困难。 32 文献综述许多近期论文已使用LLMs进行经济预测和分析。金等人(2024)发现一个大型语言模型可以用匿名会计数据来预测公司收益。库克等人(2023) 使用LLMs分析财报电话会议。Pham和Cunningham(2024) 提供了样本外(即知识截止后)的通货膨胀和奥斯卡金像奖的预测。施耐格尔等人(2024) 显示 GPT4 可以帮助人类预测者在各种金融和政治预测任务中,所有这些任务都发生在知识截止日期之后。类似地,潘等人(2024比较 LLM 预测与众包预测。Jha等人(2024)将收益电话会议记录输入GPT3.5,并展示它可以帮助预测资本投资和异常收益。作为他们稳健性检验的一部分,他们将样本限制在知识截止日期之后,并分别尝试对会议记录进行匿名化。格拉斯曼和林(2023)检验GPT3.5从新闻标题预测股票收益的能力;他们匿名化公司名称以避免样本内“干扰”效应。法里亚-埃-卡斯特罗和莱博维茨(2023)评估在知识截止前和截止后的大型语言模型的通胀预测。扎里丰瓦尔(2024)研究不同的提示以及获取不同信息如何影响GPT4的通胀预期。此外,文献的一个分支已将LLMs作为人类在调查或战略博弈中的替代品使用(曼宁等(2024),卡兹尼尼克(2024),Tranchero等人(2024).)汉森等(2024)同时为这两个领域做出贡献,通过模拟专业预测者(SPF)受访者并评估由LLM生成的预测的性质。最后,一些论文使用LLM作为分类器,用于诸如新闻标题之类的事物,然后使用这些分类来构建指标llm召回的缺陷,并且这些错误通常与参考日期之后的信息相关。从高层次来看,这些错误非常人性化,因为它们可以被解释为一种真诚地遵循指令的努力,同时受到对过去模糊记忆的阻碍。这些模式表明,在使用llms时,前瞻偏差可能是一个重要的挑战。 4评估前瞻性偏差很困难。大型语言模型吸引了预报人员的注意。前瞻偏差也是我们论文的关注点;我们通过量化几种在实践中具有重要意义的偏差类型来补充文献,例如LLM对首印数据记忆的后期修订污染以及数据发布时间的不可确定性。我们还开发了一个测试,用于判断LLM的估计是否受到了未来数据值的影响。许多这些论文承认前瞻性偏差——一个LLM的潜在+t t据称模拟一个在时间动作的代理使用信息1 或更高版本——并试图通过匿名化、知识截止日期后比较和提示技术来解决它。对于直接测量预见偏差的程度,做的工作稍少一些。2Sakar和Vafa(2024)是一个例外,它们显示了前瞻性偏差出现在两个情境中,其中GPT4被要求扮演一个实时预测者:首先,在评估疫情前盈利电话会议中的风险因素时,大语言模型有时会提及大流行病和新冠病毒。其次,大语言模型通常能够“预测”势均力敌的选举的胜者。洛佩斯-利拉等人(2025) 评估金融宏观经济变量的召回率和预见偏差;有趣的是,他们关于召回准确率的召回率估计值高于我们,表明存在某些模型或提示特定效应。我们通过开发更正式的宏观经济环境数据泄露检验方法,并探索大型语言模型对数据发布日期的理解(实时预测的关键因素),来补充这些论文。路德维希等人(2025)也讨论了在国会立法和财经新闻背景下的前瞻偏差。为解决这些问题Sarkar(2024)和他等(2025)开发仅在已知时间点之前的数据上训练的LLMs序列,当然这些模型远小于市面上的模型,并且确实拥有与前沿模型相同的完整功能集。2看Croushore(2011)用于详细讨论传统预测中数据修订和预测不稳定性等相关主题。像情绪指数 (沙皮罗等人,2022;贝比,2023;卡涅尔等,2024;范·宾斯伯根等,2024). 53 模型和数据正是因为有理由认为它们可能对预测有用。这意味着,在预测方面的高准确性不能被视为前瞻性偏差的强有力证据;LLMs是能够预测的模型,我们应该期待它们超越一些其他的预测。在本文中,我们采取了一种间接的方法,关注LLM对历史数据值的回忆召回ues/发布日期。看起来更容易展示错误在受未来影响预测比向一个证明它是信息更复杂“过于精确”。注意汉森等(2024) 使用宏观经济指标的最新值提示大语言模型,以使其立足现实并帮助提升性能;该策略也可能有助于减轻前瞻性偏差。我们的工作通过记录原始大语言模型在不向提示中传递额外信息时的能力和局限性,补充了他们的研究。对于论文的大部分内容,我们关注四个宏观经济时间序列:GDP、通货膨胀、工业生产和失业率。与同样地汉森等(2024), 我们将注意力集中在季度值上,以便我们可以与SPF进行比较。该序列的详细信息如下:我们的评估超越了前瞻偏差这一主题,因为我们测试了大型语言模型是否能够准确回忆经济统计数据。一个使用大型语言模型来探索经济假说的分析师希望模型对经济历史有清晰、准确的理解。记录回忆的程度以及大型语言模型知识的局限性将帮助研究人员考虑如何使用这些工具。• 国内生产总值(GDP):实际GDP的季节性调整年度化一个季度增长率 • 通货膨胀:季节性调整的消费者价格指数(CPI)四个季度的变化 • 工业生产(IP):工业生产的季节性调整年度化一个季度增长率 值得注意的是,提示的开发是一个迭代过程。我们最初的3.1 模型我们同时使用完全修订版(当前年份版)的数字,以及首次印刷的价值。3.2 方法论• 失业率:季节性调整后的失业率季度平均值我们的主要查询指示大语言模型逐步思考,写出他们的推理,并在最后只写出最终答案。这是为了提高性能,因为大语言模型在做出答案之前可以从逐步推理中受益(魏等,2022)。系统提示可以在图中找到18,并且一个示例用户提示在图中所展示19.我们使用通过 AWS Bedrock 提供的 Anthropic 的 Claude Sonnet 3.5 大型语言模型。十四行诗3.5被认为与OpenAI的同期产品相当(尽管它不具备o1及后续模型的推理能力),在基准测试中表现优异。需要注意的是,该模型未启用互联网搜索或工具使用功能;除了提示中包含的信息,它无法获取任何更新数据。我们不使用OpenAI的模型,因为我们没有便捷的方式访问它们。3模型ID是anthropic.claude-3-5-sonnet-20240620-v1:0。这是最初的Sonnet 3.5,不是2024年10月发布的更新版Sonnet 3.5。查询的响应内容冗长。我们使用一个辅助的“摘要”LLM和提示从响应中提取估计值。摘要LLM被指示阅读原始响应并返回一个形如“答案:{估计值}”的答案,其中{估计值}是期望的估计值。然后我们使用正则表达式(regex)解析摘要LLM的答案以提取数值点估计。 6 3 73.4 选择温度3.3 答案中的非确定性在典型使用中,LLM 的响应是随机的。LLM 一次生成一个标记,所生成的标记是该时点之前文本的函数——无论是提示语还是不完整的响应。4LLM 通过从模型的下一个Token的概率分布中进行采样来生成Token,因此更可能的补全会被更频繁地选择。我们需要评估在我们的上下文中温度参数有多重要,以及应该将其设置为什么值。图1显示两个GDP估计:一个将温度设置为1(默认值),一个将温度设置为0。5这两个系列极其相似。我们对每个查询多次运行并计算平均估计,以减弱LLM响应中的随机性。我们还计算该平均估计的标准误差,并使用它来绘制置信区间。平均响应接近确定性,置信区间显示我们仍在哪里存在显著随机性。4标记是单词或单词的一部分,例如“the”可