AI智能总结
Capgemini 生成 AI 实验室的剧本2024 成功 , 自信地接受 AI 的信任, 而不仅仅是创造工作的 AI, 但在创建AI 工作可靠,符合人类期望的 AI, AND对人们最感兴趣的人工智能。 内容表 工作的 AI Proven Accuracy 08 AI 工作可靠 鲁棒性10可靠性12稳定性14 符合人类期望的 AI 感性16谦卑18优雅地失败 / 合理地推断20可解释性22 AI 在人们的最佳利益中发挥作用 公平24可持续性26隐私28 此外,这些几十年的经验使我们对在将所有事物AI化方面产生兴趣转化为具有真正商业价值的东西时必须考虑的关键成功因素有了经过验证的理解。 马克 · 罗伯茨创成式 AI 实验室副主任主编 了解投资规模 罗伯特 · 恩格斯Head Generative AILab主编 除了占据新闻头条的高调生成式服务外,每天还有各种其他人工智能产品和服务被宣布、推出和营销。据研究机构IDC报告,全球人工智能支出(包括软件、硬件和服务)将2023 年达到 1540 亿美元, 比 2022 年的支出增加 26.9%。 AI : 成为好人很容易。现在我们需要有用 科技分析师表示,持续投资人工智能将在2026年使支出超过3000亿美元。这些资金已经用于资助广泛的概念验证项目。无论公司是利用人工智能改进客户服务、解决复杂的科学和工程问题,还是识别欺诈交易,它们都在投入数十亿美元的新兴技术以期在竞争中获得优势。 人工智能(AI)突然无处不在。一年前还被认为属于科幻范畴的强大内容生成服务,如今已成为了从董事会会议室到学校操场热议的话题。 从外部看来,这项对AI的投资似乎是一个伟大的成功故事。资金将用于开发有助于塑造科技和商业未来的产品和服务。然而,也存在一个缺点——就像所有新技术浪潮一样,并非所有的这些投资都会获得回报。 这一轮兴趣激增的主要因素之一是生成式AI的发展。在过去一年中,生成式AI服务的兴起将人工智能推向了头条新闻。过去,人工智能被视为一项边缘技术领域,而现在它被各行各业的人们用于各种用途,无论是提问、撰写文本、生成图片还是代码。 我们在这广泛的客户基础中观察到这一效应。许多AI项目,即使表面上看来是成功的,也无法摆脱概念验证阶段。近年来的各种调查显示,AI项目的失败率高达80%。 然而,不要将生成式AI的迅速崛起视为一场革命。尽管像ChatGPT这样的有效用户界面使强大的大型语言模型的访问变得更加普及,但向AI驱动服务的过渡本就会发生。当前对生成式AI的兴趣仅仅是幕后演变的可见表现,这一演变已经酝酿了多年。 Emer emerge 的是一种矛盾:尽管许多组织认为在人工智能方面进行重大投资将具有商业上的积极意义,但这些项目中很大一部分实际上并未带来预期的回报。因此,我们如何调和这两种截然不同的观点,并创建具有商业价值的人工智能项目? 改变我们衡量成功的方式 追求更高的“9”位数(即更高的准确率),这种对高精度的执着是普遍存在的。然而,在该领域的专家看来,这种执着既天真又无助,因为它会分散人们对长期成功真正关键因素的注意力。在大多数实际部署中,AI系统失败的严重程度远比其成功的频率更为重要。实际上,一个准确率为99.99%的AI系统如果其0.01%的错误是灾难性的,则可能会被视为完全失败。 AI 工作可靠 • 稳定性——有效处理异常或恶意输出。• 可靠性——始终在规定的时间框架内产生输出。• 坚固性——性能一致且不会随时间漂移。 我们面临的最关键挑战是,我们所有人都以错误的方式衡量AI项目的成功。无论是使用AI的人、开发工具的专业人士,还是媒体、分析师和投资者,我们都陷入了这样的集体幻觉,即只有准确性才是唯一重要的指标。 与人类期望一致的 AI 准确性并非唯一重要的因素——而且肯定不是大多数AI项目失败的主要原因。AI项目的商业成功取决于多种复杂因素的综合作用,而这些因素往往被忽视或 relegation 至次要考虑事项。 • 感知能力——根据世界或社会的运作方式来做决策。• 谦逊——认识到自身的局限性,并且在不知道答案时拒绝回答问题。• 适度外推/优雅失败——在面对超出训练范围的场景时表现得当,并且安全地失败。• 可解释性——能够解释其解决问题的过程而非作为一个神秘的黑箱工作。 成功往往被衡量为在狭窄基准测试中具有高准确性或令人印象深刻、引人入胜,而其他至关重要的成功因素则因缺乏理解、不够激动人心或不足以吸引眼球而被忽视。 然而,这些看似次要的关注点实际上对成功至关重要。这些因素与准确性一样重要,甚至更为关键,因为它们往往是导致问题行为和失败的人工智能投资的根本原因。这里概述的成功因素必须在任何人工智能系统的开发和实施过程中予以考虑,因为它们将增强系统用户以及推动并支付该系统的领导者的信心: 当AI系统执行某项操作正确时,无论是传统机器学习系统进行简单的分类,还是生成式AI工具正确回答问题,我们都会高度重视这种准确性。实际上,我们往往会基于这一单一的准确度指标来形成对系统的整体评价。 AI 符合人们的最佳利益 • 公平性 – 无偏见。对所有子群体一视同仁。• 可持续性 – 尽量减少训练及持续使用带来的负面影响。• 隐私性 – 保护其训练过程中涉及的敏感数据。 准确性备受推崇,因此我们每天都会看到充满激动的新闻标题宣称某些新系统在特定问题上达到了很高的准确率。数字如“90%准确”、99%或99.9%被频繁提及—— AI 的工作原理 • Proved Accuracy - is good at solving the problem, as measured by benchmark tests. 结论 : 让 AI 对每个人都有用 我们不应认为谦逊、可持续性和可靠性等元素只是人工智能项目中乏味的次要因素。虽然关注这些因素不会带来由AI生成的图像或文章所带来的兴奋感,但它们将确保您的业务产出值得信赖且实用。一旦这种情况发生,随着时间的推移,失败的可能性将会降低,采用率将会提高,商业成功的可能性也会显著提升。 随着人工智能在我们生活中扮演越来越重要的角色,人们必须对所使用的解决方案感到自信。确保始终考虑这12个因素将意味着您的业务能够从人工智能中获得显著的商业价值。在本指南中,我们将详细讨论这12个因素。 我们现在认识到,准确完成一项任务仅仅是促进人们更加信任其所使用的人工智能产品和服务的12个同样重要的因素之一。 已证明的准确性 TIjana NIKOLI ♪居住专家 我们什么时候可以说人工智能足够好 ? “好 ” 是什么意思 ? 生成式AI已将人工智能推向各个领域的聚光灯下,从创意艺术到数据分析,从客户服务到工程领域。然而,这一快速崛起也凸显了一个长期存在的AI问题:何为“好的”人工智能?传统上,机器学习模型的表现仅通过狭窄的测试和验证分数进行评估。但随着对生成式AI的关注,其创造力和幻觉特性迫使我们重新考虑准确性的真正含义,或者在这种新世界中准确性是否仍然相关。简单的准确性衡量标准已经不再足够。 基于不同的准确度衡量标准,我们使用的方法可能会极大地影响我们对其输出的解读。 必须也要考虑现实世界的维度。模型可能在测试中表现优异,但在实际应用场景中却可能失败。这种差异突显了良好定义的重要性——这一定义应综合考虑各种因素,如伦理影响、社会影响以及与人类价值观的契合度。 伦理影响若被忽视或忽略社区反馈,可能会导致灾难性后果。例如,情境契合度虽难以衡量,但却是“良好”与否的最终决定性因素。 WHY? 总是 和分类器说 “苹果 ” , 它的天真准确率将是 99% , 即使它没有能力检测到类之间的差异。 • 任何参与AI决策的人需要理解其性能。这不仅适用于系统的用户,也适用于设计、构建和资助该系统的人。 • 为此,通常会使用更为复杂的统计指标,例如精确率与召回率,或敏感性与特异度。这些指标描述了准确性的不同方面,展示了模型在正负预测上的表现,并且能够在多次使用中保持一致性。 LINKS • 这种需要理解绩效使得创建一个易于理解和代表该绩效特征的单一数字——准确度——变得极为重要。 • Validating Large Language Models with ReLM. Kuschnick et al. Carnegie Mellon University, 2023.https: / / arxiv. org / pdf / 2211.15458. pdf • 然而,即使使用这些更为复杂的度量标准,如准确率、精确率和召回率,也不能保证您的模型在实际应用中的成功。 • 然而,在几乎所有的案例中,单凭一个数字无法全面反映机器学习系统的表现,因此我们通常需要使用多个指标来描述其性能特征。 • Langchain 博客文章 : “LLM 评估者有多正确 , ”对促进测量的可能性提出问题“证明准确性 ” 。https: / / blog. langchain. dev / how -正确的 - 是 - llm - 评估者 / • 实际上,如本手册将展示的那样,基准测试中的准确性只是众多同等重要的成功因素之一,我们必须考虑这些因素以不仅在纸上取得成功,还能在用户对系统充满信心的情况下真正获得现实世界的成功。 • GEDLT 项目的提示 , 写作风格和质量回答 GDELT 项目是实时网络图和开放研究的全球人类社会数据库 : https: / / blog. gdeltproject. org / large - language - models - llms -行星尺度 - 实时数据 - 电流限制 / 即使我们能够在一个数字中捕捉到一个模型的 “好 ” 程度 , 这也是不够的 , 因为“ 好 ” 是一个主观术语。 • 理解人工智能成功多方面本质至关重要,因为过分专注于任何一个方面可能会带来潜在的后果。 建议 • 首先,确保有效地衡量和传达准确性。由于准确性无法仅通过一个数字来代表,因此应使用更为合适的指标来设定用户对系统性能特征的期望。 • 在某些情况下,专注于错误类型的准确性可能会造成实际危害。例如,一项对英国乳腺癌筛查的研究显示,单纯关注错误类型的准确性导致了过度诊断,并使许多女性无谓地经历了痛苦和压力重重的治疗。 证明能力 不要使用简单的准确性作为在 AI 系统中宣布成功的唯一标准。 • 对业务中的所有人进行培训,了解如何讨论AI系统的准确性。努力营造一种文化氛围,使从董事会到普通员工的所有人都能舒适地提问关于敏感性、特异度、精确率和召回率等方面的问题。 WHAT? • 考虑一个用于分类100个对象(苹果或橙子)的AI计算机视觉系统的简单准确度衡量标准。可以通过计算正确分类的比例来衡量该系统的准确度。 • 除了准确性之外,还需要采取综合性的方法。组织必须在人工智能项目中拥抱透明度、伦理和公平性。可以考虑使用类似这样的手册,以提醒所有参与人工智能系统设计的人思考成功人工智能的多个方面,而不仅仅是准确性本身。 • However, this percentage would only be a useful measure确切地说 如果有两类中相同数量的项目。然而,如果苹果的数量多 于橘子,简单的百分比准确率并不能准确反映分类器的表现。在极端情况下,如果有99个苹果和1个橘子, • 主要陷阱之一是对技术指标的近视关注。忽略训练数据中的偏见 , 忽略 健壮 MITALI AGRAWAL居住专家 一个AI系统是否总是以一致的方式响应类似的输入?它能否应对故意的恶意攻击?所有这些问题都与鲁棒性的概念相关——衡量AI系统在其接收到的信号与训练时所使用的信号不同时表现良好的程度。 robustness 是可靠人工智能系统的基础,确保系统在面对逆境时具备韧性。在人工智能动态landscape中,两大关键挑战浮现:以一致的方式处理系统在现实世界中将遇到的巨大