您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国际清算银行]:将人工智能代理在一般任务上进行测试 - 发现报告

将人工智能代理在一般任务上进行测试

2025-02-21 国际清算银行 洪雁
报告封面

由Fernando Perez-Cruz和Hyun Song Shin共同撰写 货币与经济部门 二月 2025 年 JEL分类:C88. 关键词:AI代理,LLMs评估。 BIS工作报告由货币和经济部门的成员撰写。国际清算银行部门,以及不时由其他部门提供。经济学家撰写,并由该行出版。论文涉及当前主题。兴趣和性质技术。其中表达的观点是作者自己的观点。作者的观点,不一定反映BIS的观点。 本出版物可在国际清算银行(BIS)网站(www.bis.org)上查阅。 © 国际清算银行 2025.版权所有。如需复制或翻译简短摘录,须注明来源。 ISSN 1020-0959 (印刷版) ISSN 1682-7678 (在线版) 在一般任务上对AI代理进行测试 11费尔南多·佩雷斯-克鲁斯辛恩(Hyun Song Shin) 摘要 然而,典型的人工通用智能(AGI)追求型大型语言模型(LLMs)的评估程序通常包括具有明确度量的单维度明确问题。这些测试使研究人员能够评估LLMs的熟练程度,并促进一致的比较以展示进展。但是,即使某些新测试极为具有挑战性(Besiroglu 等人,2024;Phan 等人,2025) 在这些领域表现得非常出色并不意味着它们具有与人类相同的含义。此外,一旦掌握了这些测试,我们仍然发现自己并没有更接近实现通用人工智能或超级智能。 多模态大型语言模型(LLMs)在基于海量数据集的训练下,在许多场景中变得越来越有能力。然而,这类模型的性能通常在狭窄的任务中进行评估,这与为特定目标训练的标准机器学习模型类似。我们采取了不同的方法,通过将最新的LLM代理人在解决三个流行游戏(Wordle、Face Quiz和Flashback)中的一般任务中测试其能力。这些游戏对人类来说很容易解决,但它们要求一定程度的自知之明和高级能力,以便进行实验、从错误中学习并相应地规划。我们发现,LLM代理人在这些一般任务中表现出混合的绩效。他们缺乏从错误中学习的能力和自我纠正的容量。在认知子任务中最复杂的LLMs性能可能并不是其在现实世界环境中部署的限制因素。相反,通过包括多个认知任务的通用测试来评估追求通用人工智能(AGI)的LLMs的能力将至关重要,从而使其能够解决完整的、现实世界的应用。 这些问题在中央银行感兴趣的应用中变得突出,例如基于所有 incoming evidence 来做出货币政策决策的过程。政策制定过程不仅涉及常规任务,如基于预定的数据集运行一系列预测模型,而且还包括判断力和自我意识来识别知识差距,检查活动的替代经济指标或价格设定,并在不断变化的经济环境中权衡证据。这些技能在经济周期的转折点尤其重要,例如在 2021 年新冠疫情冲击后,通货膨胀迅速上升时。对经济政策制定过程至关重要的是,自我意识从过去的错误中学习,并在情况需要时改变方向。确实,知道何时“情况需要”需要高度判断力和对经济和政策环境的深刻理解。 1. 引言 关于大型语言模型(LLMs)最终是否会导致通用人工智能(AGI)的争论正在持续进行(。Morris et al.,2024;艾尔特曼,2024()或超级智能()Altman,2025;Amodei,2024) 在可预见的未来。无论如何定义AGI或超级智能(Altmeyer 等人,2024), 崇尚通用人工智能的LLMs的基本承诺1存在于它们在现实世界环境中替代人类执行任务的能力中。 考虑到这些因素,我们通过让最新一代的LLM代理面对相对简单的任务——纽约时报的Wordle游戏,来对他们进行一般任务的测试。《纽约时报游戏》,2021), 面对面测试 (《纽约时报游戏》,2024),以及回顾:你每周的历史测验(《纽约时报游戏》,2023) (以下是我们对这些游戏进行描述)。这些游戏对人类来说容易上手(因此它们受欢迎),但它们需要运用识别答案错误的能力,学习和实践在游戏中做出有效决策的技能。 模型如Claude与计算机使用(人类学,2024), OpenAI的运营商 (OpenAI,2025(或DeepMind的Mariner项目)DeepMind,2024). 这些模型是基于transformer架构的多模态大型语言模型,能够处理多种数据模态作为输入(例如,文本、语音、图像),并生成多媒体输出,同时具备使用工具的能力。 不应仅根据其执行最复杂初级任务的能力来评估,而应基于其对整体任务的熟练程度,因为最复杂任务的熟练程度并不必然意味着在简单任务上的能力。 从错误中学习并诊断改变航向的方法,以解决弱点领域。这三款游戏是LLMs的训练集,它们知道如何玩这些游戏的一般规则。然而,LLM代理在具备解决这些游戏所需的其他认知能力方面表现得远不如人。 本论文的剩余部分组织如下。我们将在第节中回顾关于各种评估基准和数据集的文献。2在章节3我们展示了当前具有计算机使用的LLMs具备一定的自我纠错能力,尽管它们在某些方面表现出缺陷,这阻碍了它们解决完整任务的能力。在第4我们引入两个激励性示例,以强调在评估以AGI为目标的LLMs时进行全面实验的必要性。我们将在第节中提出另一种观点。5关于我们主要论点的反论点。我们在论文中提出两种情景,探讨渴望实现AGI的LLMs如何在中央银行中应用的结论部分。6并在第节中进行讨论7. 相反,我们对我最新型语言智能体进行的测试显示,它们缺乏意识到自己答案不准确的自我意识,而且没有能够以最有效的方法进行实验以消除无知的能力。简而言之,它们不清楚自己的知识空白在哪里,也不能判断应该采取哪些行动来解决知识不足。对于那些正在进行决策中央银行来说,这些问题尤其需要认真思考。以普遍人工智力(A通用)为导向的智能代理在现实环境中替代人类决策者还为时尚早。 除了我们的主要发现之外,我们还提供了一些一般性命题,这些命题在AI的一般应用中可能是有益的考虑: 2. 文献综述 1. 在实际应用中测试LLM代理时,设定一般任务是至关重要的。现实世界的挑战并非单维度任务,而是需要多种认知能力。追求通用人工智能的应用应能够应对现实场景的复杂性和模糊性。 LLMs 通常通过分配被认为复杂的任务来评估。它们执行这些任务的能力常常引起惊讶(Bubeck et al.,2023;魏等。,2022a;斯里瓦斯塔瓦等人,2023观察他们在看似简单的任务中的挣扎可能会引起惊讶或娱乐()。佩雷斯-克鲁兹 & 辛,2024;Mirzadeh 等人,2024;OpenAI 社区,2024;江等,2024;石等,2023;施埃弗等人,2023). 以人为中心的方法通过如LLM Arena(等)举措得到了正式化。蒋等,2024). 长短期记忆模型(LLM)也通过标准化测试进行评估,范围从中学数学到法律职业资格考试(Cobbe 等人,2021;Katz et al.,2024;亨德里克斯等人,2021;Rein 等人,2023;黄等。,2024)。今天,我们普遍认为最先进的AGI-aspiting LLMs可以通过图灵测试()。贝弗尔,2023).在本文档中关于智力的衡量(Chollet,2019), Chollet 倡导对智力进行更广泛的测量方法:“我们随后基于算法信息理论提出一个新的智力形式定义,将智力描述为技能获取效率强调概念如下:范围、泛化难度、先验知识,并且经验, 作为在描述智能系统时需要考虑的关键部分。”在论文结尾处,Chollet提出一个新的数据集,旨在评估AI系统是否具有智能,包括400个少样本学习的视觉推理任务。据报道,OpenAI的GPT o3在针对这些任务进行微调后,所取得的早期成果令人印象深刻(Chollet,2024然而,我们并不认为OpenAI的GPT o3是通用人工智能(AGI)。 2. 人类擅长适应动态环境,并且能够轻松地处理一般认知任务。追求AGI的LLMs应该展现出类似的灵活性。 最重要的是,追求AGI的LLM必须配备自我评估、自我批评和自动校正的机制。这种评估和改进的能力对于确保在动态和非结构化的现实世界场景中可靠地执行至关重要,因为完美的表现不太可能实现。 第三点含义最为重要。我们应该通过涵盖多种认知能力的一般任务来评估追求AGI的LLM的能力,使它们能够解决实际、真实世界中的应用。 我们可以将这个评估过程称为学习实验从人类进行实验的角度来看,这又涉及到了许多必须执行的附加子任务,以确保实验的成功。实验需要充分的准备和仔细的结果解读,这两者对于确定后续步骤至关重要。对于人类来说,这些辅助任务是相对微不足道的,并且以高精度执行,当出现错误时具有内在的恢复能力。大多数现实生活中的实验都涉及到多个相互关联的子任务的完成。因此,LLMs 最近,Epoch AI 推出了 FrontierMath,这是一项包含极具挑战性的数学问题的测试。 根据陶哲轩所说,应需数年才能解决人工智能问题()。Besiroglu 等人,2024). 安全AI提出了人类最后的大考,涉及极为困难的问题,(Phan等,2025). 在这两个测试中,目前最先进的LLM的表现仅达到个位数。 解决问题。这个过程更广,需要运用额外的认知技能以全面地应对任务。 3.1. 使用Claude CU的Wordle游戏 在第一个实验中,我们评估了Claude CU在单次提示下解决Wordle的表现,如图所示。1由于Wordle包含在LLMs的训练数据中,因此无需向Claude解释其规则即可进行游戏。然而,有充分的文献记录表明,LLMs在涉及精确字母计数的任务中会遇到困难,因此我们预计在确定后续单词时可能会出现错误。 无论这些测试可能有多么具有挑战性,我们最终都将战胜它们——并且可能比大多数人预期的要快得多。这是因为,作为一个社区,当我们面临一个明确的问题和一个清晰的衡量成功的标准时,我们不可避免地会找到方法来在该领域表现出色。不幸的是,一旦这些测试被解决,我们仍然不会更接近实现通用人工智能或超级智能。这把我们引到了我们论文的主旨,即需要综合实验来完成整个任务。 3. 语言大模型代理在玩Wordle游戏方面表现如何? 我们将大型语言模型(LLM)代理进行了全面测试,让他们玩纽约时报(NY Times)的三款游戏:Wordle(《纽约时报游戏》,2021), 面对面测试 (《纽约时报游戏》,2024),以及回顾:你每周的历史测验(《纽约时报游戏》,2023). Wordle是一款广为人知的文字游戏,大约五年前开始流行。游戏目标是猜测一个由五个字母组成的单词,该单词被五个方块遮挡。玩家需要根据之前猜测的反馈来适当调整猜测。每个猜测都必须是一个有效的五个字母的单词,方块的颜色会改变以显示猜测的接近程度。如果方块变成绿色,表示字母在单词中,且位置正确。如果方块变成黄色,表示字母在单词中,但位置不正确。如果方块变成灰色,表示字母不在单词中。猜测的次数有限,赢得游戏需要在有限的尝试次数内猜出单词。 图1. 利用提示请求Claude CU解决Wordle。 要明确,这个实验的教训不是声称克莱德无法玩Wordle。2而不是,其目的是分析哪些其他认知能力被正确运用,并识别出存在改进潜力的领域。 我们的主要实验是通过使用计算机使用(Claude CU)来测试Claude进行的()。人类学,2024)因其解决上述三款游戏所需的不同辅助子任务的能力。我们使用Claude CU,因为DeepMind的项目Mariner(DeepMind,2024() 并不广泛可用。OpenAI于1月23日发布了Operator。OpenAI,2025),但运营商因与《纽约时报》持续的法律纠纷而无法访问游戏(。格里恩鲍姆和麦克,2023). 对操作员进行了一次简短的测试。worldly.org并且一个谷歌表格,它们被展示在本节 我们开始报告成功的实例。使用所提出的提示,Claude CU成功地导航到《纽约时报Wordle》页面。它接受了隐私偏好和更新的参考条款,然后点击播放按钮,并通过点击右上角的“X”关闭了“如何玩”的说