AI智能总结
将人工智能代理在一般任务上进行测试 由Fernando Perez-Cruz和Hyun Song Shin所著 货币与经济部门 二〇二五年二月 JEL分类:C88. 关键词:人工智能代理,大型语言模型评估。 BIS工作论文由货币和经济领域的成员撰写。国际清算银行部门,以及不时由其他部门提供。经济学家撰写,并由银行出版。论文主题为时事兴趣且具有技术性质。其中表达的观点是他们自己的观点。作者的观点并不一定是BIS的观点。 本出版物可在国际清算银行(BIS)网站(www.bis.org)查阅。 © 国际清算银行 2025. 版权所有。经注明出处,可复制或翻译简要摘录。 ISBN 1020-0959 (印刷版) ISBN 1682-7678 (在线版) 将人工智能代理在一般任务上进行测试 1费南多·佩雷斯-克鲁斯申炯镐 摘要 然而,对于追求AGI的LLMs来说,典型的评估流程包括具有明确度量标准的一维明确问题。这些测试使研究人员能够衡量LLMs的熟练程度,并促进一致的比较,以展示进展。但即便在某些新的测试极其具有挑战性(Besiroglu 等人,2024;Phan et al.,2025在它们中表现卓越并不像对人类那样具有相同的意义。此外,一旦掌握了这些测试,我们仍会发现离实现通用人工智能或超级智能并没有更近一步。 多模态大型语言模型(LLMs),经过海量数据集训练,在许多场景中变得越来越强大。然而,此类模型的性能通常是在狭窄的任务中评估的,类似于为特定目标训练的标准机器学习模型。我们采取了不同的方法,通过让最新的LLM代理在解决三种流行游戏(Wordle、Face Quiz和Flashback)的一般任务中接受考验。这些游戏对人类来说很容易解决,但它们需要一定程度的自我意识和高级能力来进行实验、从错误中学习以及相应地规划。我们发现,LLM代理在这些一般任务中的表现参差不齐。它们缺乏从错误中学习的意识以及自我修正的能力。在认知子任务中最复杂的LLMs的表现可能并不是它们在现实世界环境中部署的限制因素。相反,通过涵盖多个认知任务的一般测试来评估AGI志向的LLMs的能力将会很重要,使它们能够解决完整、现实世界的应用。 这些问题在中央银行感兴趣的应用中显得尤为重要,例如基于所有 incoming evidence 制定货币政策的流程。政策制定过程不仅包括运行基于预定数据集的预测模型等常规任务,还涉及判断和自我意识,以识别知识空白、审查替代经济活动或定价指标,并在不断变化的经济环境中权衡证据。这些技能在经济周期的转折点尤为重要,例如2021年新冠冲击后通货膨胀迅速上升时。对经济政策制定过程来说,能够从过去的错误中学习并根据情况变化进行调整的自我意识至关重要。事实上,知道何时“情况需要”这种精神状态涉及到高度判断力和对经济和政策环境的深入理解。 1. 引言 关于大型语言模型(LLMs)最终是否会引领至通用人工智能(AGI),目前存在持续的争论(。Morriset al.,2024;艾尔特曼,2024括号或超级智能艾特曼,2025;阿莫迪,2024) 在可预见的未来中。无论如何定义通用人工智能(AGI)或超级智能(Superintelligence)(Altmeyer 等人,2024), AGI追求型LLMs的基本承诺1它们在于在现实世界环境中执行任务的潜力,以替代人类。 考虑到这些因素,我们对最新的LLM智能体进行了全面评估,通过让他们挑战相对简单的任务,即玩《纽约时报》的Wordle游戏来检验它们。《纽约时报 游戏版》,2021), 面对面测试 (《纽约时报 游戏版》,2024),回顾:您本周的历史测验( )《纽约时报 游戏版》,2023))(以下是我们对这些游戏的描述)。这些游戏对人类来说很容易玩(因此它们的受欢迎程度),但它们依赖于识别答案错误时的技能,学习 模型如Claude与计算机使用(人本学,2024), Ope- nAI的operator (OpenAI,2025)或DeepMind的ProjectMariner(DeepMind,2024). 这些模型是基于Transformer架构的多模态LLM,能够处理多种数据模态作为输入(例如,文本、语音、图像),同时生成多媒体输出,并具备使用工具的能力。 从错误中吸取教训,并诊断改变课程以解决薄弱领域的方法。这三款游戏是LLM的训练集,他们知道如何玩这些游戏的一般规则。然而,LLM代理在具有解决这些问题所需的其他认知能力方面表现出了远远不如人的效果。 不应仅根据其执行最复杂初级任务的能力进行评估,而应更侧重于其对整体任务的熟练程度,因为最复杂任务的专业性并不必然意味着在简单任务上的能力。 本文的剩余部分组织如下。我们在第X节回顾了关于各种评估基准和数据集的文献。2在节3我们在本报告中展示,当前与计算机结合使用的LLMs具备一定的自我纠错能力,尽管在某些方面表现出不足,这阻碍了它们解决完整任务的能力。在第二章中...4我们引入两个激励性示例,以强调在评估旨在实现通用人工智能的LLMs时进行全面实验的必要性。我们将在第节中提出另一种观点。5关于我们主要观点的反驳论点。我们在论文中提出两种情景,即如何将追求AGI的LLM应用于中央银行,并在第几节进行阐述。6并且,在第X节中进行了讨论(X代表具体的章节编 相反,我们对最新型大型语言模型代理的测试表明,它们缺乏自我意识,无法一致地识别自己的答案是否错误,也缺乏以最有效的方式实验来弥补无知的能力。简而言之,它们不知道自己不知道什么,也不知道自己应该采取哪些行动来弥补知识上的不足。对于央行在其政策制定过程中,这些差距尤其需要牢记。渴望实现通用人工智能的AI代理在现实世界场景中取代人类决策者还有很长的路要走。 号)。7. 与我们的主要发现一同,我们提供一些一般性命题,这些命题在AI的一般应用中可能会有所帮助: 2. 文献综述 1. 在实际应用中对LLM代理进行测试时,设置一般性任务是至关重要的。现实世界的挑战并非单一维度的任务,而是需要多种认知能力。致力于实现通用人工智能(AGI)的应用应能够应对现实场景的复杂性和模糊性。 LLMs通常通过分配被认为是复杂的任务来评估。它们执行这些任务的能力常常引起惊讶(Bubeck 等人,2023;魏等人,2022a;斯里瓦斯塔瓦等,2023观察他们在看似简单的任务中的挣扎可能导致惊讶或娱乐()。Perez-Cruz& Shin,2024;Mirzadeh 等人,2024;开放AI社区,2024;江等,2024;石等,2023;Schaeffer et al.,2023). 以人为本的评估方法已通过LLM Arena()等倡议得到正式化。蒋等,2024). LLMs 也可以通过标准化测试进行评估,范围从中学数学到法律执业资格考试(科贝等,2021;Katz et al.,2024;亨德里克斯等人,2021;Rein et al.,2023;黄等,2024)。今天,我们普遍接受,最先进的AGI-aspiting LLMs可以通过图灵测试(贝弗,2023).在论文中关于智力的衡量(Chollet,2019), Chollet提出了一种更广泛的方法来衡量智力:“我们根据算法信息论提出了一个新的正式智力定义,描述智力为技能获取效率并且强调概念为范围、泛化难度、先验知识,并且经验在描述智能系统特征时,需要考虑的关键要素。”在论文的结尾部分,Chollet提出一个新的数据集,旨在评估AI系统是否具有智能,该数据集包含400个少样本学习视觉推理任务。据报道,OpenAI的GPT o3在这些任务上的微调早期结果令人印象深刻(Chollet,2024然而,我们不认为OpenAI的GPT-3是通用人工智能(AGI)。 2. 人类擅长适应动态环境并在处理一般认知任务时轻松自如。追求AGI的LLMs应该展现出类似的灵活性。 最重要的是,追求AGI的LLM必须具备自我评估、自我批评和自动纠错的机制。这种评估和改进的能力对于确保在动态和非结构化的现实世界场景中可靠的表现至关重要,因为完美的表现不太可能实现。 第三次推论是最为重要的。我们应该通过对包括多种认知能力的一般任务的评估来判断寻求AGI的LLMs的能力,从而使它们能够解决实际的、现实中的应用。 我们可以将这个评估过程称为学习如何进行实验人类进行实验的视角,这又涉及到必须执行的众多额外子任务的执行,以确保实验的成功。实验需要进行彻底的准备和细致的结果解读,这两者对于确定后续步骤都是必不可少的。对于人类来说,这些次要任务相对简单,并且能在发生错误时具备内在的错误恢复能力。大多数现实生活中的实验都涉及到多个相互关联子任务的完成。因此,大规模语言模型(LLMs) 最近,Epoch AI 推出了 FrontierMath,这是一项包含极具挑战性数学问题的测试。 根据陶哲轩所述,应需数年才能解决人工智能问题(Besiroglu 等人,2024). 安全人工智能提出了人类最后的大考,涉及极其困难的问题,(泛等人,2025)。在这两次测试中,当前最先进的大型语言模型的表现仅为个位数。 解决它。这个过程需要使用额外的认知技能来完整地处理任务。 3.1. 使用Claude CU的Wordle 在第一个实验中,我们评估了Claude CU在单条提示下解决Wordle的性能,如图所示1由于Wordle包含在LLMs的训练数据中,因此无需向Claude解释其规则即可玩游戏。然而,有充分记录表明LLMs在涉及精确字母计数的任务上存在困难,因此我们预计在确定后续单词时会出现错误。 无论这些测试可能多么具有挑战性,它们最终都将被克服——而且可能比大多数人预期的要早得多。这是因为,作为一个社区,当我们面临一个明确界定的问题和明确的成功标准时,我们不可避免地会找到在解决这个问题上的卓越方法。不幸的是,一旦这些问题得到解决,我们仍然发现自己离实现通用人工智能或超智能并没有更近一步。这带我们回到了我们论文的主要内容,即需要进行全面的完整任务实验。 3. 大型语言模型代理在玩Wordle游戏方面表现如何? 我们将大型语言模型(LLM)代理进行测试,让他们玩纽约时报的三款游戏:Wordle(《纽约时报 游戏版》,2021), 面对面测试 (《纽约时报 游戏版》,2024),回顾:您本周的历史测验( )《纽约时报游戏版》,2023). Wordle 是一个广为人知的字谜游戏,大约五年前开始流行。目标是猜测一个隐藏在五个方块背后的五字母单词,通过提供猜测来实现。游戏需要根据先前猜测的反馈适当调整猜测。每一次猜测都必须是一个有效的五字母单词,方块的颜色会变化以显示猜测的接近程度。如果方块变成绿色,表示该字母在单词中,并且位于正确的位置。如果方块变成黄色,表示该字母在单词中,但不在正确的位置。如果方块变成灰色,表示该字母不在单词中。猜测的次数是有限的,赢得游戏需要在有限的尝试次数内猜出单词。 图1. 及时使用提示Claude CU解决Wordle。 为了明确,这个实验的教训并不是断言Claude无法玩Wordle。2而不是分析其他认知能力是否被正确运用,其目的是确定哪些领域存在改进的潜力。 我们的主要实验是通过测试Claude与计算机使用(Claude CU)进行的(人本学,2024) 对于解决上述三个游戏所需的不同辅助子任务的能力。我们使用Claude CU,因为 DeepMind 的 Project Mariner (DeepMind,2024) 并不广泛可用。OpenAI于1月23日发布了Operator()。OpenAI,2025), 但运营商因与《纽约时报》持续的的法律纠纷而无法访问游戏 (Grynbaum & Mac,2023). 使用操作员进行的简短测试已执行wordly.org并且一个谷歌表格,它们在本节的末尾展 我们开始报告成功案例。使用提议的提示,Claude CU成功地导航到《纽约时报》Wordle页面。它接