您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[IEG&世界银行]:平衡创新与严谨:人工智能在评估中审慎整合的指南 - 发现报告

平衡创新与严谨:人工智能在评估中审慎整合的指南

2025-05-13-IEG&世界银行M***
AI智能总结
查看更多
平衡创新与严谨:人工智能在评估中审慎整合的指南

5/13/2025关键词摘要农业发展(国际农业发展基金)。任地整合到其工作流程中。 数据内容表格表 1. 评估标准.................................................................................7 表 2. 我们的四个实验.............................................................................9 表 3. 判别性任务的实验结果 ...............................................9 表 4. 生成性任务的实验结果 ................................................10图 1. 结构化文献综述工作流程....................................................4 图 2. 提示与验证循环 ...........................................................11关键要点..............................................................................................................................................iii 缩写................................................................................................................................................iv 致谢........................................................................................................................................v 简介....................................................................................................................................................1 实验的关键考量..............................................................................................2识别用例................................................................................................................................................2 在用例中识别机会.....................................................................................................2 确定资源和成果的一致性 .........................................................................................5 选择合适的指标来衡量LLMs的性能................................................................6我们的实验与结果....................................................................................................................8 新兴良好实践.........................................................................................................................11代表性抽样.......................................................................................................................................12 开发初始提示...............................................................................................................................14 评估模型性能...........................................................................................................................17 优化提示......................................................................................................................................................18向前看.............................................................................................................................................18 参考文献附录................................................................................................................................................20 ii 关键要点选择适当的模型评估指标。选择和计算用于衡量大语言模型(LLM)性能的指标,以及针对人类标注数据采取适当的编码者间信度评估,对于确定实验的成功至关重要。在文本分类等判别性任务中,诸如召回率、精确率和F1分数等标准机器学习指标可能很有用。在文本摘要和合成等生成性任务中,诸如忠实性、相关性和连贯性等人评估标准可能具有意义。迭代开发和验证提示开发有效的提示语涉及迭代测试和优化。例如,一个团队可以从一个基础的提示语开始,并根据大型语言模型(LLMs)的响应逐步添加更具体的指令。在提示语中包含要求解释的请求可以帮助洞察模型推理过程,并有助于提示语的优化。识别相关的用例。周密的实验设计始于识别评估方法,通过这些方法可以将大语言模型(LLMs)整合进来,使其在相同的资源限制条件下,相较于传统方法能显著增加价值。利用大语言模型并非适用于所有用例;因此,将实验与那些能够有效发挥大语言模型能力的用例相匹配至关重要。在用例内规划工作流程。将用例分解为详细步骤和任务有助于团队理解在何处以及如何有效应用大型语言模型。这种模块化设计还允许在用例内部和跨用例重用成功的组件。制定适当的抽样策略。一个强有力的采样策略至关重要,例如将数据集划分为训练集、验证集、测试集和预测集,以促进有效的提示开发与模型评估。这种划分有助于团队迭代优化提示并评估其泛化能力,最终促使大型语言模型给出更符合预期的响应。理解和认同资源分配与成果。团队必须清晰地理解和就实验所需的资源及预期成果达成一致。这包括人力资源(评估者、数据科学家、研究设计及领域专家)、技术、时间表,以及每个实验的成功定义。 iii 缩写所有金额均为美元,除非另有说明。AI 人工智能 GenAI 生成式人工智能 IEG独立评估组大型语言模型 (LLM)大型语言模型SLR结构化文献综述 致谢这份指导文件由Harsh Anuj、Hannah Den Boer和Estelle Raimondo撰写。Dawn Roberts、Jenny Gold、Mercedes Vellez和Joy Butscher与作者合作进行了实验。Jenny Gold和Ridwan Bello对早期草稿提出了有价值的意见。Arunjana Das、Amanda O’Brien、Wendy Rubin和William Stebbins协助进行了编辑、制作和传播工作。作者感谢Sabine Bernabè和Indran A. Naidoo博士的支持。在文档制作过程中使用了Microsoft Copilot。 v 引言在人工智能(AI)不断发展的背景下,大型语言模型 —:(LLMs)一种用于文本的生成式人工智能(GenAI)(参见Brown等人 —2020年;谷歌2025年)有潜力提升评估实践中文本作为数据的收集、处理和分析的效率、广度与有效性(参见Raimondo等人2023a、2023b、2023c;Ziulu等人2024;Anuj等人2025)。1然而,大型语言模型并不总是能生成一致、权威或准确的内容(参见Ouyang等人,2022年;Martineau,2023年;OpenAI,2024年),这表明在使用这些工具时,其回应必须在使用前进行验证。此外,我们实践中分析严谨性的重要性,加上我们机构对世界各地人们生活的影响力,明确表明我们必须以审慎的态度来整合此类工具。在下一节“实验的关键考量”中,我们描述了如何识别适用于应用LLMs的相关用例和用例中的机会,找到资源与结果达成的共识的重要性,以及选择适当指标来衡量LLM性能。本节包含一个针对SLR的详细工作流程,而评估综合的工作流程则呈现在附录中,并附有一个更“传统”的SLR工作流程。“我们的实验与结果”节则介绍了我们的实验设计和结果,包括表格总结LLMs在文本分类、摘要、合成和信息提取方面的性能,这些性能是根据选定的指标测量的。下一节“新兴良好实践”提供了有关开发有效提示、创建用于计算模型评估指标的数据子集以及根据验证结果改进提示的指导。最后,在最后一节“向前发展”中,我们讨论了我们的研究基于独立评估组(IEG)在2024年年末为期两个月进行的一系列现场实验。这些实验在一个由IEG和国际农业发展基金组织专家组成的跨学科团队中开展,该团队在评估、数据科学和研究设计方面具有专业知识。我们如何才能在保持严谨性的同时实现大语言模型的潜力?本指导说明旨在通过展示基于我们在评估中频繁出现的用例——结构化文献综述(SLR)的大语言模型实验良好实践——来回答这个问题。该用例作为大语言模型如何精心集成到评估工作流程中的具体示例。1一些大语言模型(如OpenAI的GPT-4o)具有固有的多模态特征——也就是说,它们不仅能接受文本,还能接受或生成图像、语音或其他类型的数据。例如,参见Huyen 2023对多模态的有用描述。 1 2实验的关键考量因素识别用例识别用例中的机遇周密的实验始于谨慎的规划,以及识别出大语言模型(LLMs)可以增添价值的领域。足够的增量价值对于给定的资源集合和约束条件(例如,人员、预算、时间),与更传统的文本数据分析方法相比。这一基础步骤确保了实验的目标性和相关性。尽管大型语言模型(LLMs)非常通用且看似无所不知,但它们的有效性取决于特定用例的应用方式。不匹配的实验可能会浪费资源并影响质量。对于这份指导说明,我们基于先前进行