AI智能总结
李大伟♠, 姜博翰♠, 黄良杰♣, Alimohammad Beigi♠, 赵成帅♠, Zhen Tan♠Amrita Bhattacharjee,♠姜宇轩 Abstract,♦Cyu Chen,❦吴天浩,❧,Kai Shu❥陆成欢刘,♣,♠♠亚利桑那州立大学,♣伊利诺伊大学芝加哥分校,♦马里兰大学巴尔的摩县分校,❦伊利诺伊理工学院,❧加州大学伯克利分校,❥埃默里大学 评估与评价一直是人工智能(AI)和自然语言处理(NLP)领域的关键挑战。然而,无论是基于匹配的方法还是基于嵌入的方法,传统方法往往难以判断细微属性并提供满意的结果。近年来,大型语言模型(LLMs)的进步激发了“LLM作为评判者”的范式,在这一范式中,LLMs被用于在各种任务和应用中进行评分、排名或选择。本文提供了基于LLM的评估与判断的全面综述,旨在推进这一新兴领域的发展。我们首先从输入和输出的角度给出详细的定义。然后引入一个全面的分类框架,从三个维度探讨“LLM作为评判者”:要评判什么、如何评判以及在哪里评判。最后,我们总结了“LLM作为评判者”的基准,并突出显示了关键挑战和有前景的方向,旨在为这一有希望的研究领域提供有价值的见解并激发未来的研究。12. 计算效率高 , 可用于许多生成应用程序 (张等人。,2022,2023a,2024c), 他们对n-gram匹配和参考为基础的 arXiv: 2411.16594 v1 [cs. AI] 2024 年 11 月 25 日设计的高度依赖显著限制了这些方法在动态和开放场景中的适用性()。Liu et al.,2016;Reiter,2018). 随着深度学习模型的兴起 (Devlin 等人。,2019;Reimers 和Gurevych,2019) , 许多基于嵌入的评估方法 (例如 , BERTSCore (张等人。,2020) 和巴氏 (袁等人。,2021)) 也已出现。尽管这些基于模型的小型指标从词级表示转变为嵌入级表示,提供了更大的灵活性,但它们仍然难以捕捉超越相关性之外的帮助性和危害性等微妙属性。 1 Introduction 评估和评价一直是机器学习和自然语言处理(NLP)中至关重要但极具挑战性的任务,特别是在对候选列表的各种属性(例如质量、相关性和有用性)进行评分和比较时。Sai 等人。,2022;Chang et al.,2024) 。传统的评估方法依赖于 BLEU (Papineni 等人。,2002) 和 ROUGE (Lin,2004), 这些指标通过计算输出文本与参考文本之间的词重叠来衡量质量。尽管这些自动指标 最近的高级大型语言模型 (LLM) , 如 GPT -4 (Achiam 等人。,2023) and o1 (Ope), 在指令跟随、查询理解和响应生成方面表现出色。这一进展激励研究人员提出了“LLM作为裁判”的概念(郑等人。,2023) , 它利用强大的 LLM 对一组候选人进行评分、排名和选择 (图1) 。 LLM 的强劲表现 (布朗等人。,2020) 结合精心设计的评估管道 (李等人。, 1法学硕士作为法官更多资源在网站上 :https: / / llm - as - a - judge. github. io2LLM - as - a -我们发布关于法官at:https: / / github. com / llm - as - a - judge / Awesome - LLM - as - a - judge 2023) , 推动他们从传统模式向智能代理的转变 (诸葛等人。,2024) 。然而 , 随着LLM - as - a - judge 迅速发展 , 像判断偏见和脆弱性这样的挑战 (Koo 等人。,2023a;Park 等人。,2024) 也正在 emergence。因此,对当前技术进行系统性回顾并探讨未来挑战将有助于推动基于LLM的判断方法的发展。 2023;Beigi 等人。,2024b;Bai 等人。,2023a) 有助于实现对各种评估应用进行精细且详细的判断,显著解决了传统评估方法的局限性,为NLP评估领域设定了新的标准。除了评估之外,LLM-as-a-judge 还被广泛应用于整个LLM生命周期中的各类任务,包括对齐(alignment)等任务(括号内的内容保持不变)。Bai 等人。,2022;Lee 等人。,2023) , 检索 (李和邱,2023;李等人。,2024c) 和推理 (Liang等人。,2023;赵等人。,2024b) 。它赋予 LLM一系列先进的能力 , 如自我进化 (Sun 等人。,2024) , 主动检索 (李等人。,2024c) 和决策 (Yang et al., 在这项调查中,我们深入探讨了LLM-作为法官的具体细节,旨在提供基于LLM的判决的全面概述。我们从对LLM-作为法官的各种输入和输出格式进行正式定义(section)开始(Section)。2) 。接下来 , 我们提出一个深入和理解的 - 输入和输出格式分别在部分2.1and Section2.2. 解决三个关键问题的严格分类法 (第3- Section5): (1)R = J(C ,... C) 。 1 n2.1 输入2.2 输出3 属性排名:在基于排名的判断中 , 输出是每个候选样本的排名 , 表示为R=Cas{ > ... > C }. This comparative ap -ijproach 在需要在候选人之间建立排名顺序的情况下很有用 (李等人。,2023).得分:当每个候选样本被分配时R=:连续或离散分数:{C1S , ..., C:S }, 它变成了一个基于分数的判断 -1n n它是最常见和广泛使用的协议,利用LLM生成评分以进行定量比较。李等人。,2024a) 或属性检测 (谢等人。,2024a).CiR这是要评判的候选人 , 是ith判断结果。在本节中 , 我们根据两种不同的输入格式对其进行分类n候选人编号。选择:在基于选择的判断中 , 产出涉及选择一个或多个最优的R=C>didates, 表示为{ , ..., C }ij{C , ...C }。这种方法特别有用1n在决策中 (Yao et al.,2023a) 或内容过滤(李等人。,2024c) 上下文。In this section, we categorize current research in LLM - as - a - judge from attribute perspections. Figure3给出了法官 LLM 可以评估哪些方面的概述。n2配对 / 列表 - 明智:When≥, 它变成了一对 -n= 2n >2wise () 或列表方式 () 在提供多个候选样本一起供法官LLMs比较和进行全面评估的情况下进行判断()郑等人。,2023).在本节中 , 我们讨论了三种R基于不同格式的判断。n= 1智者:When, 它变成了一个明智的判断 , 法官LLM 将只关注一个候选样本 (Gao 等人。,2023).JGiven a judge LLM, the assessment process can be formulated as: 方法 : 如何判断 ?•我们探索了用于LLM-as-a-judge系统的各种调优和提示技术,包括手动标注的数据、合成反馈、监督微调、偏好学习、操作交换、规则增强、多代理协作、示范、多轮交互以及比较加速。属性 : 判断什么 ?我们深入研究速度 -• 法官LLMs评估的具体属性,包括帮助性、无害性、可靠性、相关性、可行性和总体质量。 应用 : 在哪里判断 ?•我们调查了LLM-as-a-judge在评价、对齐 、检索和推理等方面的应用。 此外 , 我们收集现有的基准 , 以评估 LLM作为法官从不同角度在第6. Finally, we propose current challenges and provested direction for future re - search in LLM - as - a - judge in Section7包括偏见和脆弱性、动态和复杂判断、自我判断和人类 - LLM 共同判断。与其他 LLM 相关调查的差异。 LLM 近年来一直是一个热门话题 , 并获得了许多相关调查 (赵等人。,2023a;Chang et al.,2024;熊等人。,2024a)。虽然有几项调查侧重于基于 LLM 的自然语言生成评估 (NLG) 评估 (Gao 等人。,2024a;李等人。,2024i), 本研究旨在提供对LLM-as-a-judge方法的全面概述。如前所述,LLM-as-a-judge 已经被应用于更广泛的场景,而不仅仅是评估方面,因此有必要从总体上对其加以总结和分类。此外,还有一些关于基于LLM的应用程序的调查研究,例如基于LLM的数据标注(LLM-based data annotation)。Tan 等人。,2024b) 、数据增强 (周等人。,2024c) , 以及自我更正 (Pan 等人。,2024) 。但是 , 仍然缺乏专门针对 LLM - as - judge 的系统和全面的调查。 2 初步 In this section, we aim to provide a detaileddefi - nition of LLM - as - a - judge, discussing the various 为了评估其无害性。最新的大型语言模型(LLMs)能够有效用于内容审核,即使是在仅遵循一些政策指南的情况下开箱即用。3,或者在对安全 / 不安全数据进行微调时 (Inan 等人。,2023;张等人。,2024e)4.Ye et al.(2024b探索以细粒 度的方式评估LLMs在无害性等方面可行性的方法,并发现 proprietary 模型的表现远优于开源模型。Wang 等人。(2024i使用OpenAI的GPT-4评估其无害性,并进一步将其性能与一个较小的针对该特定任务fine-tuned的预训练语言模型进行比较。此外,Bai 等人。(2022利用原则指导LLM(大型语言模型)进行出于对齐目的的无害性评估,他们提出了一种名为宪法人工智能的概念。Phute 等人。,2023) 使用相同的 LLM 来评估其响应是有害的 , 并提供 GPT - 3.5 和 Llama - 2 的见解和最佳实践。谢等人。(2024a) 在基准测试的一系列LLMs安全拒绝任务中进行全面比较,并发现当在微调设置中使用时,较小的LLMs是有效的安全性判断者。在推理阶段,(李等人。提出可回溯自回归推理(RAIN),使大语言模型能够进行自我评估并回溯以确保AI安全。 3.1 乐于助人 现代最先进的语言模型(LLMs)通过指令调优和对齐过程,能够遵循用户指令并有效响应。这一对齐步骤依赖于大量有益且无害的数据,通常这些数据是通过人类偏好数据收集而来的,然后用于强化学习以进行对齐训练。鉴于获取此类对齐数据的成本高昂,最近的研究努力探索了使用语言模型来标注有益性,以及生成或评估对齐数据的方法。Bai 等人。,2022) 。作者在 (郭等人。,2024) 使用在线方式使用一个大型语言模型(LLM)来获取偏好,以实现另一个LLM的目标对齐。一些最近的研究表明,来自AI的帮助反馈,即LLM的帮助反馈与人类反馈相当(。Lee 等人。,2023) 。也有成功的法学硕士 (朱等人。,2024a通过与AI反馈数据精调的卓越性能,这些工作展示了此方法的可行性和实用性。同时,在评估候选响应的帮助性方面,利用LLM作为评估者的通用框架也至关重要。郑等人。,2023;Lin et al.,2023;李等人。,2024e). 3.3 可靠性 可靠性是LLMs的一个关键属性,使它们能够在生成事实性和可信的内容的同时,表达不确定性或承认对某些主题知识上的空白。关于事实性方面,Wang 等人。(2024a引入H