您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[凯捷研究院]:释放对 AI 的信心 - 发现报告
当前位置:首页/行业研究/报告详情/

释放对 AI 的信心

释放对 AI 的信心

CONFIDENCEINAICapgemini 生成 AI 实验室的剧本2024 对 AI 的成功 , 自信的采用不仅在创建 AI 工作上 , 而且在创建可靠的 AI , AI符合人类期望 , 人工智能符合人们的最佳利益。2 GenAI 实验室 2024 3 工作的 AI经过验证准确性08AI 工作可靠鲁棒性10可靠性12稳定性14符合人类期望的 AI感性16谦卑18优雅地失败 / 推断明智的20可解释性22AI 在人们的最佳利益中发挥作用公平24可持续性26隐私284 GenAI 实验室 2024TABLE OFCONTENTS 马克 · 罗伯茨创成式 AI 实验室副主任主编罗伯特 · 恩格斯Head Generative AI Lab主编AI : 成为好人很容易。现在我们需要有用人工智能 ( AI ) 突然无处不在。强大的内容生成服务可能在 12 个月前被视为来自科幻小说领域 , 现在已成为从会议室到学校操场对话的重要组成部分。这种兴趣上升的一个重要因素是生成性 AI 的兴起。在过去的 12 个月中 , 高调的生成性 AI 服务的出现将 AI 推向了头版。人工智能曾经被视为技术的利基领域 , 现在它被各种各样的人用于各种用途 , 无论是提问 , 编写文本还是生成照片和代码。但是 , 不要将生成性 AI 的迅速崛起与革命混为一谈。尽管像 ChatGPT 这样的有效用户界面使强大的大型语言模型的访问变得民主化 , 但无论如何 , 向 AI 驱动的服务的转变正在发生。今天对生成性 AI 的兴趣仅仅是多年来幕后演变的可见体现。更重要的是 , 几十年的经验让我们对关键的成功因素有了深刻的认识 , 如果我们要将对人工智能的兴趣转化为具有真正商业价值的东西 , 必须考虑这些因素。了解投资规模除了主导新闻议程的备受瞩目的生成服务外 , 每天都有各种各样的其他 AI 产品和服务在宣布 , 启动和销售。 IDC 研究人员报告说 , 到 2023 年 , 全球在 AI 上的支出 , 包括软件 , 硬件和服务 , 将达到 1540 亿美元 , 比 2022 年的支出增长 26.9 % 。这位技术分析师表示 , 对人工智能的持续投资将意味着 2026 年的支出将超过 3000 亿美元。这笔现金已经为广泛的概念验证项目提供了资金。无论他们是在使用人工智能来改善客户服务 , 解决科学和工程难题 , 还是识别欺诈性交易 , 公司都在投资数十亿美元以相对较新的技术投入美元 , 试图获得超过竞争对手的竞争优势。从外部看 , 对 AI 的投资看起来像是一个巨大的成功故事。这笔资金将创造有助于塑造技术未来的产品和服务然而 , 也有一个缺点 — — 就像所有新技术浪潮一样 , 并非所有这些投资都会有回报。我们在凯捷的广泛客户群中看到了这种影响。许多 AI 项目 , 即使是显然成功的项目 , 也无法逃脱概念验证阶段。近年来的各种调查显示 , AI 项目的失败率高达 80 % 。出现的是一个矛盾 : 虽然许多组织认为对人工智能的大量投资将是商业上积极的 , 但大量的这些项目不一定会得到回报。那么 , 我们如何调和这两种截然不同的观点 , 并创造出商业上有用的人工智能计划呢 ?5 改变我们衡量成功的方式我们需要克服的关键挑战是 , 我们都以错误的方式衡量 AI 项目的成功。无论是使用 AI 的人 , 专家开发工具 , 还是媒体 , 分析师和投资者 ,我们都陷入了一种集体错觉 , 即准确性是唯一重要的东西。成功通常是通过在狭窄的基准测试中具有很高的准确性来衡量的 , 或者是令人印象深刻的或有趣的 , 而其他关键的成功因素 - 被忽略 , 因为它们没有被很好地理解 , 令人兴奋或吸引头条新闻。当 AI 系统正确执行某些操作时 , 无论是由传统机器学习系统执行的简单分类 , 还是正确回答问题的生成 AI 工具 , 我们都会对这种准确性非常重视。准确性是如此受人尊敬 , 以至于我们每天都会看到令人叹为观止的头条新闻 , 宣称新系统在特定问题上实现了高水平的准确性。 “90 % 准确 ” 或 99 % 或 99.9 % 的数字被抛出 -结论 : 让 AI 对每个人都有用我们现在看到 , 准确地解决任务只是 12 个同样重要的因素之一 , 帮助每个人对他们使用的人工智能产品和服务更加自信。越多越好 , 这就是对高精度的痴迷。然而 , 对于该领域的专家来说 , 这种对准确性的痴迷既幼稚又无益 ,因为它将注意力从对长期成功真正重要的因素中转移开。在大多数现实世界的部署中 , AI 系统失败的严重程度远比成功的频率更为重要。在现实中 , 99.99% 准确的 AI 系统可以被视为如果 0.001% 的故障是灾难性的 , 则完全故障。准确性并不是唯一的重要因素 , 它当然也不是大多数 AI 项目失败的主要原因。 AI 项目的商业成功取决于多种因素的复杂组合 , 这些因素往往被忽略或降级为次要问题。但是 , 这些所谓的次要问题实际上对成功至关重要。这些因素与准确性一样重要 , 也许更重要 , 因为它们通常是有问题的行为和失败的 AI 投资背后的根本原因。在此概述的这些成功因素必须在任何人工智能系统的开发和实施 , 因为它们将在系统的用户和推动和支付的领导者之间灌输信心 :AI 的工作原理•经过验证的准确性 - 通过基准测试来衡量 , 擅长解决问题。我们不应该错误地认为谦逊 , 可持续性和可靠性等元素是无聊的AI 努力的次要要素。虽然专注于这些因素不会产生来自 AI 生成的图像或文章的兴奋 , 但它将确保您的业务创建的输出是可信和有用的。一旦随着时间的推移 , 失败的机会将减少 , 采用的水平将增加 , 商业成功的可能性将大大提高。AI 工作可靠•健壮性 - 有效处理异常或恶意输出。•可靠性 - 始终在所需的时间范围内产生输出。•稳定性 - 性能是一致的 , 不会随着时间的推移而漂移。与人类期望一致的 AI•感性 - 根据世界或社会的运作方式做出决定。•谦卑 — — 理解自己的局限性 , 拒绝回答不知道答案的问题。•合理地推断 / 优雅地失败 - 当面对超出训练和安全失败的场景时 , 采取明智的行动。•可解释性 - 可以证明它是如何解决问题的 , 而不是作为一个神秘的黑匣子工作。AI 符合人们的最佳利益•公平 - 无偏见。对所有子群体都是同样公平的。•可持续性 - 最大限度地减少培训和持续使用的有害影响。•隐私 - 保护被训练的敏感数据。随着人工智能在我们的生活中扮演着越来越重要的角色 , 人们必须对他们使用的解决方案充满信心。确保始终考虑这 12 个因素将意味着您的业务从 AI 中提供重要的商业价值。在本手册中 , 我们将更详细地讨论这 12 个因素中的每一个。6GenAI 实验室 2024 最佳利益 我们现在认识到的事情对于使 AI 成功至关重要稳定性性能不会在不知不觉中漂移随着时间的推移感性根据世界 / 自然 / 物理 / 文化的运作方式做出决定人们在 AI 中通常关注的事情可靠性将始终在所需的时间范围内产生输出鲁棒性将处理异常或恶意输入井经过验证的准确性它善于解决问题 ,通过测试测量 ?可持续性培训和持续使用的影响不是有害的公平AI 解决方案中的信心 / 信任谦卑拒绝回答 , 或者至少在不知道某事时报告合理地推断当面对超出其训练范围的看不见的数据时 , 会做一些明智的事情优雅地失败如果它失败了 , 它会以安全和合理的方式失败吗 ?可解释性它能解释 / 证明它是如何解决问题的吗 ?隐私输出不偏向任何子组不会泄露敏感数据AI 的工作原理AI 的工作原理可靠AI 在人们的符合人类期望的 AI7 已证明的准确性TIjana NIKOLI ♪居住专家我们什么时候可以说人工智能足够好 ? “好 ” 是什么意思 ?传统上, 机器学习模型的性能只能通过狭窄的测试和验证分数来评估。然而 , 对生成人工智能的新关注及其创造力和幻觉迫使我们重新考虑准确性的真正含义 , 或者准确性在这个新世界中是否甚至相关。简单的准确性度量对我们来说不再足够好作为决策的基础 , 因为我们使用的不同准确性度量会极大地影响我们如何解释其输出。也必须考虑现实世界的维度。模型可能在测试中表现异常 , 但在应用于现实世界的场景时却失败了。这种差异突出了对善的全面定义的重要性 - 包含了各个方面 , 例如道德含义 , 社会影响以及与人类价值观的一致性。8GenAI 实验室 2024 为什么 ?•任何参与人工智能决策的人都需要了解它的性能 , 无论是系统的用户 , 还是设计、构建和资助它的人 , 都是如此。•这种需要了解性能使得非常需要创建一个单一的 , 易于消化的数字 - 准确性 , 这代表了该性能概况。•然而 , 在几乎所有情况下 , 没有一个数字可以告诉你机器学习系统的整体表现 , 所以我们经常需要使用多个指标来描述性能概况。•即使我们可以在一个数字中捕捉到一个模型的 “好 ” 程度 , 这也是不够的 , 因为“ 好 ” 是一个主观术语。•理解人工智能成功的多方面本质是至关重要的 , 因为过度关注任何一个方面都会带来潜在的后果。•在某些情况下 , 专注于错误类型的准确性可能会导致现实世界的伤害。例如 , 英国的一项乳腺癌筛查研究表明 ,对错误准确性的关注导致过度诊断 , 许多妇女不必要地接受痛苦和压力的治疗。什么 ?•考虑 AI 计算机视觉系统对 100 个对象 ( 苹果或橙子 ) 进行分类的简单准确性度量。我们可以计算出准确性通过测量正确分类的百分比。•然而 , 只有在有确切地说中相同数量的项目两个类。然而 , 如果苹果比橘子多 , 一个简单的百分比准确度数字将不能准确反映分类器的性能。在极端情况下 , 如果有 99 个苹果和一个橘子 ,和分类器总是说 “苹果 ” , 它的天真准确率将是 99% , 即使它没有能力检测到类之间的差异。•出于这个原因 , 使用了更复杂的统计度量 , 通常如精确度和召回率 , 或灵敏度和特异性。这些度量描述了准确性的不同方面 , 显示了它在正面和负面预测中的表现 , 可重复多次使用。•然而 , 即使使用这些更复杂的措施 , 如准确性 , 准确性和召回并不意味着你的模型的现实世界的成功得到保证。•事实上 , 正如我们将在本 Playbook 中展示的那样 , 基准测试的准确性只是成功的许多同样重要的方面之一 , 必须考虑这些方面 , 以便不仅在纸面上取得成功 , 而且要与对该系统有信心的用户取得真正的现实成功。建议•首先 , 确保您有效地测量和传达准确性。准确性极不可能由单个数字表示 , 因此请使用更适当的度量来设置用户对系统性能配置文件的期望。•不要使用简单的准确性作为在 AI 系统中宣布成功的唯一标准。•教育企业中的每个人如何谈论人工智能系统的准确性。努力创造一种文化 , 让每个人 , 直到董事会 , 都能舒适地提出关于灵敏度和特异性、精确度和召回等问题。•除了准确性 , 整体方法是必要的。组织必须在人工智能的努力中拥抱透明度、道德和公平。考虑使用像这样的剧本 , 提醒参与人工智能系统设计的每个人思考导致人工智能成功的多个方面 , 而不仅仅是准确性。•主要的陷阱之一是对技术指标的近视关注。忽略训练数据中的偏见 , 忽略9PROVENABILITY道德含义或忽略社区反馈可能会导致灾难性的结果。例如 , 上下文适合性无法轻易衡量。但这是 “善良 ” 的最终定义因素LINKS•使用 ReLM 验证大型语言模型。 Kuschnick 等。卡内基梅隆大学 , 523 。 https: / / arxiv. org / pdf / 2211.15458. pdf•Langchain 博客文章 : “LLM 评估者如何正确 ” , 对促进测量“ 经过验证的准确性 ” 的可能性提出了问题。 https: / / blog. langchain. dev / how - correct - are - llm - evaluators /•关于提示 , 写作风格和回答质量的 GEDLT 项目 GD