AI智能总结
AI和机器学习全景报告 目录 引言高管致辞关键要点获取质量评估采用结论调查方法关于澳鹏 引言 《AI和机器学习全景报告》是一份跨行业调查报告,旨在通过企业及其高级决策者和技术专家的意见,全面介绍AI和机器学习的现状。在我们第8次年度调查中,澳鹏与美国哈里斯民意调查合作,将我们的调查扩展到北美和欧洲的504名受访者。本报告旨在帮助我们了解AI的采用情况、AI生命周期中数据管理的成熟度以及负责任的AI的价值。调查结果使我们能够认识到AI的变化及其如何顺应后疫情时代的需要。 新冠疫情加速了AI行业的发展,而且我们继续经历着演进。对反映“新常态”的数据的需求导致企业对高质量数据的需求迅速激增。人类行为业已改变,因此,机器必须学会反映这种新常态以适应此改变。现在,世界正在缓慢进行疫情后的调整,对AI的迫切需求正在趋于平稳,但与2020年和疫情前相比,这一需求仍在攀升。敏锐觉察这一趋势的企业必将迎来AI和ML创新的新机遇。 依托我们26年的专业经验,澳鹏非常荣幸能够与美国哈里斯民意调查(The Harris Poll)合作,提供本AI行业现状的全景报告。 随着企业领导者和AI从业者对AI发展四个关键阶段认识的加深,他们也更加重视AI生命周期数据的价值。这四个阶段是:数据获取、数据准备、模型训练和部署以及模型评估。正如我们的预期,随着市场日趋成熟,企业纷纷寻求合作伙伴帮助推出和维护AI计划。数据获取和数据准备任务艰巨,企业很快认识到,有效利用外部资源能够减轻内部数据科学家的压力。 作为AI生命周期数据的领导者,我们高兴地了解到技术、金融、医疗保健和零售等行业的决策者了解数据管理在AI不同阶段的价值。来自这些技术专家和企业领导者的调查结果和他们的意见为我们应对AI行业的挑战、满足各种需求并确定未来的发展方向提供了指导。我们很兴奋地看到数据科学家花费更少的时间来采购和准备数据,而企业对AI项目的推进也更有信心。我预测,未来10年,所有业务应用程序的构建均将利用AI保持竞争力。 负责任的AI是市场成熟的重要反映,大多数受访者表示,它是所有AI和机器学习项目的基础。虽然决策者的意见相当一致,但论及负责任的AI,企业领导者比技术专家更有可能将道德视为关键因素。 我们的调查结果也反映了时代的变迁,在经历发展初期的激增之后,AI也在调整适应全球疫情给企业和生活的方方面面所带来的影响。有关我们调查方法的更多详细信息,请参阅第29页。 Sujatha Sagiraju澳鹏首席产品官 关键要点 获取 受访者认为,数据获取仍然是个障碍,是AI生命周期中具有挑战性的一个阶段。42%的技术专家表示,AI生命周期中的数据获取阶段很有挑战性。不过,认为数据获取很有挑战性的企业领导者并不太多(24%)。1 质量 企业领导者和技术专家都认为,数据准确性在理想与现实之间存在差距。超过一半的受访者表示,数据准确性对AI的成功至关重要,但只有6%的受访者表示数据准确性高于90%。2 评估 AI在短期内不会取代人类。受访者对人机协同的重要性有着强烈的共识。81%的受访者认为,它非常重要或极其重要,97%的受访者认为,人机协同评估对于AI模型的准确性很重要。3 采用 人们对AI在商业领域的重要性的看法可能正在转变。技术专家们对于本企业在业内领先还是与业内同行齐头并进存在分歧。与欧洲的受访者相比,美国的受访者更有可能表示,本企业在采用AI方面领先于业内同行。4 道德 负责任的AI是所有AI项目的基础。93%的受访者认为,负责任的AI是其所在企业所有AI项目的基础。 获取 数据获取仍是AI应用构建团队的主要瓶颈。 原因各不相同。例如,特定用例的数据可能不足,新的机器学习技术需要更多的数据,或者并未建立轻松高效获取所需数据的适当流程。 受访者对AI生命周期数据管理的看法有着强烈的共识,即企业领导者了解AI生命周期数据管理的价值(90%同意),AI生命周期数据管理正在改变本企业的的经营方式(87%同意)。决策者在AI生命周期四个阶段会平均分配数据管理时间。7成(71%)的受访者表示,本企业在AI生命周期的许多阶段都很纠结。 “在对AI挑战的认识方面,数据科学家和企业领导者之间的差距正在逐年缩小。强调数据的重要性,尤其是与应用场景相匹配的高质量数据的重要性,对于AI模型的成功至关重要,正是这一共识让团队携手应对挑战。”Mingkuan Liu澳鹏数据科学副总裁 尽管大多数受访者(88%)认为本企业拥有AI各阶段数据管理的必要内部资源,但只有42%的技术专家认为,AI生命周期的数据获取阶段很有挑战性。不过,认为数据获取很有挑战性的企业领导者并不太多(24%)。这表明,在对AI生命周期数据管理最大瓶颈的认识方面,技术专家和企业领导者之间仍然存在分歧。这就导致企业内的优先事项与预算的错位。 受访者一致认为,用于AI模型的数据应以负责任的方式获取,减少偏见,并高度准确。 此外,许多受访者都认为数据获取阶段很有挑战性,也获得最多的预算分配。超过三分之一的受访者认为,数据获取是需要最多预算的阶段。 要使AI解决方案正常运行,就需要大量高质量数据来训练底层神经网络。多语言自然语言处理(NLP)便是个很好的示例。NLP依赖于数百万人的语音输入,并以ML(机器学习)模型可以接受的格式准备和输入。 虽然我们调查的受访者中有五分之四表示,他们拥有支持AI项目所需的适当数据量(81%),并且可以使用完成AI相关工作所需的工具(90%),但他们中的大多数人仍在为低劣的数据质量而苦恼。依靠如此数据生成的系统往往性能不佳。当在NLP中集成多模态,或连接支持多种语言和内容类型的多个独立NLP解决方案时,数据质量问题就成为一个更大的挑战。 “随着基于多语言网络爬虫数据的大型语言模型(LLM)的兴起,企业面临着另一个挑战。由于训练语料库中存在大量的有毒语言以及种族、性别和宗教偏见,模型往往表现出不良行为。由于可接受语言的使用在不同的背景和文化中存在很大差异,因此无法轻易地普遍纠正此类行为。虽然可能有不少方法来解决这个问题,包括调整模型训练的方式、筛选训练数据和模型输出,并从人类的反馈和测试中学习,但还需要进一步的研究来制定一个值得信赖的、以人为中心的LLM基准和评估方法。”Ilia Shifrin澳鹏AI专家高级总监 您是否认为您拥有适当数量/充足的数据来支持AI计划/项目? 质量 世界日新月异,随着越来越多的智能设备、多屏幕的使用和收集信息的新数字工具的出现,全球数字足迹产生的数据量迅猛增长,准确地构建和标注数据比以往任何时候都更加重要。 51%的受访者认为,数据准确性对其AI用例至关重要,46%的受访者认为,虽然这点很重要,但也可以变通。但只有20%的受访者认为,数据准确率高于80%,而认为数据准确率超过90%的受访者只有6%。 “数据准确性对AI和ML模型的成功至关重要,因为优质的数据可以产生更好的模型输出和一致的处理和决策。为了获得良好的结果,数据集必须准确、全面且可扩展。”——澳鹏首席技术官Wilson Pang 平均而言,管理和准备数据的平均时间比例呈下降趋势今年这一数字为47.4%,而2021年为53%。 在AI生命周期开始阶段就使用正确的数据,将使后续阶段获得更好的结果。用于管理和准备数据的平均时间比例呈下降趋势,今年的平均占时间为47.4%,而2021年这一数字为53%。由于大多数受访者都使用外部数据提供商,因此可以推断,通过外包数据获取和准备工作,企业的数据科学家正在节省时间,并正确管理、清理和标注数据。 平均而言,您的团队花在管理、清理和/或标注数据上的时间百分比是多少? AI计划的最大 障碍是数据管理。 AI计划的最大障碍是数据管理,41%的受访者表示,数据管理是最大的瓶颈。紧随其后的是,39%的受访者表示,缺乏合格的人才——数据科学家和技术专家、数据架构师和工程师稀缺。31%的受访者表示,缺乏足够的人员编制预算,增加了数据管理团队人员配备的挑战。合格数据科学家和技术专家的短缺凸显了确保关键人才专注从事需要其宝贵技能的工作的重要性。为了解决这一问题,企业希望利用外部数据提供商减少本企业在数据获取等领域的工作量,为数据科学家省出时间从事其他AI项目。 您认为AI计划或项目的最大瓶颈是什么? 评估 机器学习模型需要持续监控和调整,以确保输出准确、相关的信息。 虽然部署后的模型基本上是自主的,但模型验证和再训练却需要人机协同。受访者对人机协同的重要性有着强烈的共识。81%的受访者认为,它非常重要或极其重要,97%的受访者认为,人机协同评估对于AI模型的准确性很重要。 81%的受访者表示,人机协同机器学习非常重要或极其重要。 AI生命周期是个持续的过程,需要不断地获取、准备和评估新的数据输入和模型输出。因此,有很多企业使用外部数据提供商(88%),从我们衡量的需要持续更新模型的数据点中也可见一斑。去年,有86%的企业至少每季度更新一次模型,今年这一数字已增加到91%。 91%的企业至少每季度更新一次机器学习模型。 您多久重新训练/更新您的机器学习模型? “我们拥有独特的能力,能够为AI生命周期中不同数据模式的各个以数据为中心的阶段提供支持,这使澳鹏成为企业理想的外部数据提供商。”Sujatha Sagiraju,澳鹏首席产品官 随着数据的及时更新,接下来就需要与外部数据提供商合作,找到合适的合作伙伴非常重要。92%的受访者认为,使用合适的数据合作伙伴对于成功的模型部署和验证至关重要,大多数受访者(83%)希望能够使用一个合作伙伴为AI生命周期的所有阶段提供支持。持续验证模型性能很重要,它对成功的模型输出至关重要。 携手具有技术和专业能力的合适合作伙伴对于获得高质量的结果至关重要。在AI生命周期各阶段,技术和专业能力对于获得高质量的结果都很重要,93%的受访者对此表示同意,51%的受访者表示强烈同意。 您在多大程度上同意或不同意以下陈述? 人工模型评估在很大程度上分配的预算最少,40%的受访者表示,他们给AI生命周期的最后阶段分配的预算最少。预算分配与人机协同的重要性之间存在差距。模型评估对于确保AI模型的准确性以及减少数据量需求至关重要。预先对人机协同投入更多预算,企业将节约资金和时间,降低未来重新评估的可能性。 采用 2022年,AI的采用将继续实现增长,带来效益与应用,这源于企业创新以及提高效率和生产力的强烈愿望。 随着AI使用的日益普及,改善AI的工具和最佳实践也变得越来越先进。 在疫情期间竞相推出AI之后,人们对企业AI先进水平的看法可能正在转变。我们的数据显示,认为本企业在业内领先的受访者有所下降(对于美国市场,2021为66%,2022年为55%),这可能是由于疫情期间AI使用的大量涌现和各行各业AI用例的大量增加。虽然很少有受访者认为本企业在AI采用方面落后,但认为本企业领先的企业领导者(49%)及和同行不相上下的企业领导者(49%)数量不分伯仲。 “客户告诉我们,AI计划是其企业的优先工作,因为它是其数字转型计划的不可分割的一部分。他们的诸多数字转型计划均在新冠疫情期间启动,或因为疫情才启动。 英国和欧洲已经制定各种AI计划,以快速跟踪和改进业务流程,在当今严峻的经济环境中帮助实现可持续增长。客户认为,AI是这些数字转型计划成功的基础,有些客户甚至表示,AI现在是企业生存的基础。客户告诉我们,尽管AI战略正在取代和颠覆传统商业模式的诸多要素,但引入AI是为了带来商业效益、成本节约、弹性以及创新增长战略。” 与欧洲企业相比,美国企业更有可能表示其在采用AI方面领先于同行(分别为44%和55%)。 Sarah Lowe澳鹏欧洲、中东和非洲及亚太地区业务发展副总裁 企业将重点放在完善选定的产品线/功能上,而不是广泛推出AI,这表明投资回报率的重要性。据报告,平均52.2%已部署项目显示出显有显著意义的投资回报率。 AI预算与企业规模高度相关,与外部训练数