您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[美国国防部]:人工智能模型的测试与评估 - 发现报告

人工智能模型的测试与评估

AI智能总结
查看更多
人工智能模型的测试与评估

人工智能模型的测试与评价 在测试和评估策略中需要考虑什么 AIEC 的 T & E 策略 本节 : +指定当前文档在较大框架中的角色。 +提供了由CDAO Assess and Assurance开发的AI-enable能力测试与评估框架的概述。 本文档是支持 AI 功能的 T & E 框架的一部分 CDAO评估与保障正在创建一个框架,以提供有关如何测试和评估(T&E)人工智能增强能力(AIECs)的指导。 AIEC T & E 的 DoD 社区来自各种背景。 本文件讨论了在国防背景下独立及集成于系统-of-系统中的AI模型的测试与评估。 AIEC 框架的 T & E 提供了关于如何测试和评估 AIEC 的最佳实践和指导。 AIEC 框架的 T & E 促进了 T & E 新的 AIEC 专家与 AIEC 新的 T & E 专家之间的共同理解。 该框架按照四种测试类别进行组织,并为AIEC开发者和一线测试人员提供了不同类型的资源。 它旨在帮助AIEC开发者和一线测试人员在整个AIEC生命周期中将操作现实性融入测试。 本文档未提供 : 本文档提供 : 详细的 T & E 实施全面的 AI 模型 T & E 指南绑定策略和要求系统级的 T & E 指导和最佳做法 AI 模型的 T & E 入门 算法级别的 T & E CDAO 的 AIEC 框架 T & E 分为四个重点领域 虽然这些测试与评估(T&E)重点领域有助于将关键的T&E方面分解为易于理解的部分,但它们并非互斥,且在实际测试中也没有明确的界限。 运营 T & E (OT & E) 评估AIEC在实际作战环境中执行代表性任务,并对其在面对现实对手时的表现进行评估。 人类系统集成 (HSI) T & E 评估AIEC(人工智能经济委员会)协助利益相关者观察和定向其环境、做出知情决策并执行其使命的能力。 系统集成 (SI) T & E 评估AI组件在其更大系统中的作用以确保AIEC作为一个整体单元正常运作,并识别其局限性和风险。 AI 模型 T & E 评估和记录受系统和任务约束影响的各项性能维度的AI模型和数据。 本文档涵盖 AI 模型 T & E 重点领域 CDAO 正在开发一系列满足关键 T & E 需求的产品 第1部分旨在帮助测试人员理解核心试验与评估(T&E)概念,从而使具备操作水平的测试人员能够编写和评估人工智能-enable能力的试验与评估策略。 什么是测试和评估策略 ? DoD 采购中的高级文档 , 用于指导测试计划和执行。 捕获任务(S) 能力旨在执行测试设计中的所有硬件和接口系统。 识别并优先确定评估领域以告知测试团队的数据需求,支持重大项目的决策。 指定进行 T & E 所需的资源以及需要投资的资源短缺。 描述了必要的测试事件和活动,以评估系统并支持采购、技术及项目决策。 了解更多 您可以在 https: / / www. test - evaluation. osd. mil / T - E - Enterprise - Guidebook / 上阅读有关 DoD TES 的更多信息 关于绩效的思考 本节 : +描述性能的多个维度+概述性能如何根据 AI 模型类型而变化+描述绩效的常见方面和衡量标准 性能冰山 正确性仅仅是严格且稳健评估人工智能模型性能的冰山一角。 测试AI模型对于保证其质量、可靠性和实用性至关重要。但确保测试足够稳健并非易事,因为性能的许多细微方面都需要评估和验证。正确性是最直观也是最明显的指标,它展示了模型如何实现其功能性能目标。然而,单独的正确性测量不足以进行严格的和稳健的性能评估。 以下水线之下还有许多其他方面,但它们对于确保模型的质量和可靠性至关重要。这些方面包括模型如何处理不同来源的误差(如偏差和漂移)、模型如何解释其输出和推理(如可解释性和不确定性)、模型如何应对不同的情况和输入(如延迟和稳健性),以及模型如何表示现实世界的问题和数据(如代表性与韧性)。这些方面往往相互关联且复杂,当测试AI模型时需要仔细考虑和评估。测试AI模型不仅是一项复杂的任务,更是一项全面而有效的任务。 测量正确性 正确性是指预测模型实现其功能性能目标的能力。正确性(准确率、精确度和/或召回率)通常是模型开发人员的主要关注点。 正确性度量指标会根据算法类型而有所不同。当相关数据可用时,正确性度量指标将预测结果与真实值进行比较。当无法获得此类数据时,需要使用其他比较方法。常见的度量指标包括: 模型开发者的首要考虑通常是任务正确性。如果没有达到足够的正确性水平,这里提到的其他所有衡量标准都无关紧要。 正确性是衡量模型对给定输入预测出正确或预期输出能力的标准。这是一个基本且直观的指标,用于评估模型在其预期任务上的性能。 。分类器 : 准确性 , 精度 , 召回 ,F1 得分。回归 : 均方误差 , R2无监督和生成模型:通常依赖于人工评估员。强化学习系统:模拟器评分与人工评估的结合。对于分类器模型,“准确性”定义为: 你应该问什么 ? 模型对于给定的输入,预期的输出是什么?开发人员的功能性能指标是否与运营中最重视的因素一致?模型能否达到其正确性目标?在不同的条件和场景下,模型的稳健性如何? 正确性对于识别和改进模型的弱点和限制非常重要。它有助于诊断错误的来源,如数据质量、算法设计或其他因素。 正确性对于比较不同的模型或模型版本很有用。 测量可解释性 可解释性方法提供了对模型如何生成输出结果的见解。这些方法通常无法提供模型训练所基于的数据生成过程的洞察,但更高的可解释性有助于理解模型的内部工作机制。 你如何衡量它 ? 你为什么要测量它 ? 内在方法或事后分析?内在方法限制模型的复杂性,而事后方法则分析已训练好的模型。 检测偏差 - 可以在训练数据中检查受保护的组或它们的相关性。 可审计的-可解释的模型可以用于调试目的或为进一步测试提出理论建议。 局部还是全局 ? 解释方法是否解释了单个预测或整个模型行为 ? 用户接受 - 人类依靠解释来发展信任。可解释的模型可以提供有用的解释。 你应该问什么 ? 模型特定的还是模型无关的?模型特定的方法可能更快,但模型无关的方法可以适用于更多的模型类型。 谁需要解释该模型?如何呈现可解释性度量?解释将如何使用?哪些问题可能会影响提供的解释?用户反馈如何被纳入模型的可解释性中? 教育 - 可以帮助用户和学生从模型中学习 , 并知道何时使用模型。 文本解释:此方法生成自然语言描述,以解释给定输入的模型输出。 适应性——可解释的模型可以帮助用户和开发者根据变化的需求、偏好或环境调整模型。 决策树 : 此方法转换经过训练的模型, 以显示模型预测背后的规则。 测量偏差 xkcd. com “Bias” 在应用于AI时可以包含但不限于以下几种概念:歧视性或不公平对待(法律/公平性)、数据中的未充分代表元素(代表性)以及平均输出与真实均值之间的差异(统计学)。 存在太多偏见的概念无法在此进行全面列出和定义。一些类型的偏见可以在ground truth可用时直接测量,但其他类型的偏见则需要通过推断来获取。还有一些偏见无法同时最小化。 模型可能表现出整体良好的性能,但仍可能存在未预见的偏差,这可能会导致危害。公平性偏差可能导致个体和群体受到伤害,违反了DoD伦理人工智能原则。表示偏差会降低运营效率和适用性,并可能导致公平性偏差。 公平偏差往往与数据中的相关性有关;所选择的公平定义将影响测量方式。代表性偏差可能会因为在训练样本中存在选择而导致发生,因此通过分布测量可以促进测量。真实值往往不可用,因此统计偏差通常需要从预测误差中推断出来。 你应该问什么 ? 无意偏见可能导致负面后果,特别是对于少数群体、特定性别、专业群体或其他代表性不足的群体。例如: 什么是有意偏见?有意偏见如何与使命目标和绩效挂钩?您的数据中可能存在哪些不良偏见,并且这些偏见可能会在模型中被放大?哪些公平性指标最能与您的使命目标相契合? 。不同群体之间系统变化的模型输出。不同的待遇。社会或经济伤害。失去信任 团队应在适当的情况下,涉及所有相关方以识别并制定测量和缓解策略。 测量鲁棒性 robustness 描述了模型在训练条件之外的表现能力。robustness 通常被分为两个方面:自然鲁棒性(自然输入数据的变化)和对抗鲁棒性(由恶意攻击引起的扰动)。 在评估稳健性时,测试人员应考虑性能表面的平滑度以及在特定情况下的性能与其他模型的相对表现。 AI模型在部署到训练条件之外的环境中时可能会表现出不可预测的行为,这归因于新兴的模型行为以及未能以符合人类预期的方式进行泛化。 自然稳健性通过评估数据的变化来衡量。这可以通过使用不同数据集或数据源来实现,这些数据集和数据源反映了现实世界数据的多样性和复杂性。指标应捕捉模型性能在不同水平变化下的退化程度。 缺乏稳健性可能会对用户、利益相关方或社会整体导致不良或有害的后果,例如信任丧失、隐私泄露、歧视或身体伤害。 你应该问什么 ? 如何处理错误或故障并从中恢复?模型可能面临哪些来自对手的威胁或攻击?模型如何应对红队试图使其混淆的尝试?模型如何适应随着时间而发生的变化? 通过测量模型的稳健性,测试人员可以在实际应用之前识别并缓解潜在的风险和漏洞。 adversarial robustness 是通过手动或自动化红队测试来评估的。红队测试模拟由了解并能访问模型的攻击者发起的攻击。指标应反映模型在受到对抗性输入影响时被攻破的频率。 测量稳健性可以导致设计决策以提高系统的质量和可靠性,以及提供更好的用户体验。 测量弹性 韧性描述了模型在性能下降事件(如故障)后恢复到预期性能的能力。韧性是反应性的,而稳健性是前瞻性的。 你如何衡量它 ? 你为什么要测量它 ? 测试压力和扰动的挥之不去的影响可能会提供对模型弹性的见解 弹性是系统可靠性、可用性和可信性的一个关键方面。 测试人员应考虑以下事项 : 测量弹性可以帮助识别和改善系统的弱点。 • 遭遇干扰的频率和严重程度 • 系统恢复并恢复正常运作所需的时间和资源 •干扰对系统性能(如准确性、可靠性、安全性和用户满意度)的影响 • 用于应对干扰的机制,如错误检测、补偿或学习。韧性曲线将描绘在不同干扰或故障情景下系统的性能随时间的变化。 在处理动态模型(如自回归模型)时,稳健性和弹性的区别更为明显。使用动态模型时,未来的输出取决于输入和输出的历史,因此误差会随着时间向前传播。 你应该问什么 ? 是否模型具有动态性?如何通过测试衡量滞后效应和持续影响?模型能否识别错误并进行自我修正?模型如何处理错误或失败,并从中恢复? 一个 contemporaneous perturbation 可能会导致当前表现不佳(稳健性问题),但也可能导致在 perturbation 过后持续表现不佳(韧性问题)。 测量不确定度 xkcd. com 不确定性指的是用户应对模型输出结果的信心水平。不确定性来源多样,包括自然的随机变异、训练数据不足以及其他因素。 有许多类型的不确定性来源,包括 aleatoric(固有的随机性)、epistemic(关于我们所知的无知)以及 approximation(所选模型对现实的拟合程度)。 为了提高模型的性能、可靠性和可解释性,通过为预测提供信心度或误差度量。这有助于用户或利益相关者更合理地信任和使用模型的预测结果。 许多不确定性量化方法存在,最佳选择将取决于任务、建模框架以及您对应用场景的假设。常用的方法包括子采样、分析方法、蒙特卡洛模拟和集成方法。 识别对模型产生影响的不确定性来源和类型,例如自然变异、训练数据不足、模型复杂性或恶意攻击。 你应该问什么 ? 我们对模型预测的确信程度需要达到何种程度?该模型是否会被用于训练数据中罕见的情境?不确定性在不同