保持领先地位的六大数据要素所有商业领袖都需要更深入理解生成式AI时代数据的重要性。 1. 专有数据是一种竞争优势2. 非结构化数据蕴藏着未发掘的潜力3. 合成数据填补了现实世界数据的空白4. 连接数据是实现生成式AI上下文的关键5. 生成式AI加速数据风险6. 生成式AI启动数据准备状态为帮助公司达到数据基础水平,我们总结出所有关注数据的高管都应该采取的关键行动。这份报告——基于来自约1800多个生成式AI客户项目以及 Accenture 最新研究的见解——突出了关于数据和它在驱动革新中的作用的6个要点: 然而,尽管有这些巨大的期望,许多公司难以将他们的生成式人工智能试点项目转变为可扩展的解决方案。我们的研究也表明,造成这一现象的一个主要原因在于,大多数组织仍然没有为生成式人工智能做好“数据准备”。例如,当埃森哲在2024年调查了2000名CXO时,48%的人表示他们的组织缺乏足够的高质量数据来实施其生成式人工智能计划。2生成式AI正准备帮助公司重塑——通过简化运营、提供更好的客户体验以及其他多种方式推动增长。这就是为什么在埃森哲对2300名商界领袖进行的全球调查中几乎所有人(97%)都说他们相信生成式AI是一项“变革性”技术,值得长期投资。1 那么,为生成式AI做好数据准备意味着什么?高准备度的公司拥有合适的数据,这些数据具有恰当的质量和数量。他们会细致地从业务的各个方面捕捉数据,并将其整理好以便日后分析和使用。同时,他们拥有强大的治理体系来负责任地管理和维护、操作数据。值得肯定的是,如今大多数公司都认识到数据的价值,并已建立多年计划来提升其数据能力。事实上,就在2024年的同一项调查中,75%的高管表示,“高质量数据”是他们提升生成式AI能力的最有价值的要素——现在和未来六个月内。在 Accenture 的 2023 年报告中云端数据:沉睡数据的新曙光我们讨论了解锁数据价值的方法。那些步骤仍然适用。但由于生成式AI的出现,数据和AI领域发生了巨大的变化,现在是时候探讨事情发生了怎样的变化。 3 生成式人工智能在公司专有数据驱动时最有效。这是因为基于公司数据运行的基础模型能够更好地发掘公司客户、产品和运营的高价值洞察;历史和实时机构知识可以提高内部决策,降低风险,识别新的效率,以及开创有吸引力的变现机会。尽管专有数据极其宝贵,公司却难以捕捉和利用它。这就是为什么在启动生成式AI试点或试图扩展它们时,大力投资专有数据至关重要。为了确定正确的投资水平,以及开发和维护准确数据,公司应将数据视为一种产品(我们称之为“以价值为导向”的方法)。4专有数据是一种竞争优势将数据视为产品需要识别组织业务流程中每个步骤所生成的独特数据,然后选择所需的数据 作为其持续转型的一部分,全球金融服务集团BBVA与埃森哲合作开发了一个全新的综合性数字销售模式。结果如何?近5000万客户现在通过数字渠道与该银行互动,并且十分之七的销售都是通过数字化方式完成的。BBVA的客户入职流程只需几分钟(而其他大多数银行最多需要几天),使用了基于人工智能的根据不同目的区分决策方式。在某些情况下,专有数据(第一方数据)还可以通过合作伙伴提供的数据(第二方)和外部收集的数据(第三方)进行补充。以价值为导向的数据方法使公司能够在部署生成式人工智能时,在专有数据和非专有数据之间找到合适的平衡。 通过结合一方的数据与新的数据源,以提供客户旅程的逐步视图,BBVA的新数字销售模式帮助银行优先考虑新客户的销售计划,并向现有客户进行交叉销售。新模式结合了策略与规划、付费媒体、搜索引擎优化、营销自动化、分析以及为BBVA数字渠道的内容制作,以超个性化的方式触达个人。人脸识别和文本分析,通过移动应用程序验证账户申请人,并与外部数据源实时连接以检测欺诈。 非结构化数据包含未开发的潜力当与结构化数据结合时,非结构化数据为生成式AI提供更类人交流所需的上下文。例如,非结构化数据包含语气、个性、外观和感觉的信号,当这些信号注入基础模型时,能够驱动人与机器之间更加丰富的交互。这就是为什么非结构化数据具有如此大的潜力:它提供了公司业务的真实、未经过滤的表征。这也是为什么在我们调查的近四分之三公司中,都在利用来自多个来源的复杂、实时、非结构化数据。5公司数据通常具有结构(具有预定义的格式,例如按行和表格排序),这会形成对信息的“先入为主的观点”。相比之下,非结构化数据(涵盖文本、图像、音频和视频等格式)富含上下文信息。 多年来,福布斯一直严格收集和分析美国及世界最大公司的复杂财务数据,以创建标志性的《福布斯500®》和《福布斯全球500™》榜单。埃森哲和福布斯合作,将商业知识转化为福布斯分析™LLM工具——这是一个直观、易用、由生成式人工智能驱动,并可以访问《福布斯500®》排名洞察的平台。该平台由埃森哲的基础模型服务及专有的LLM资产提供支持,并使用全面的福布斯数据集进行微调。 用户可以接收有用的图形数据可视化,例如散点图、折线图和柱状图——这些由大型语言模型根据用户请求按需生成。然而,为了释放非结构化数据的潜力,公司需要提高其可访问性和可用性。而要做到这一点,又需要诸如扩展数据架构、增强数据安全和加强数据治理等措施。例如,公司可以部署可扩展的系统来管理非结构化数据(例如,使用数据湖来存储和使用向量数据库来提供数据),开发实时流分析能力,集成人工智能驱动的工具进行数据分类和搜索,并执行严格的访问控制以保护敏感信息。 生成式人工智能需要大量数据:任务或输出越复杂,所需的数据就越多,无论是数量还是质量。合成数据——由算法创建,而非从实际生活事件中收集——解决了专业数据集日益稀缺的问题,使企业能够在无需承担传统数据收集的高昂成本的情况下,探索多种场景。合成数据也能解决某些数据风险。如果一个组织的世界真实数据是保密的,比如医疗记录,合成类型的数据可以用来训练人工智能模型,同时保护患者隐私。当法规要求数据长期存储时,保留合成数据的副本(而不是原始数据)合成数据填补现实世界数据的空白例如,一家公司可能会使用从其产品和客户中衍生出的合成数据,在市场测试期间节省时间和金钱。合成数据也可用于风险管理、设计“如果……会怎样”的情景以及从数据中消除偏差。 数字孪生可以模拟经过运营数据和员工专业知识验证的仓库操作,以驱动人工智能预测操作异常时采取的最佳行动。这些孪生体还可以用于进行假设分析,模拟新场景,并验证人工智能建议,以查看仓库吞吐量的影响和浪费的减少。这为能够研究、规划和建议行动方案生成式人工智能“代理”铺平了道路。 在网络攻击或其他数据泄露事件中减少损害。尽管有这些好处,我们调查中只有一半的公司能够访问并利用合成数据为其模型。6要充分利用合成数据,公司需要领域专业知识来创建和使用这项技术,以在数量和质量之间取得平衡。同样,公司需要访问复杂的框架,使他们能够确认他们创建的合成数据是否符合预期。7数字孪生和专家知识也可以填补创建人工智能供应链所需的数据空白。例如,在自动化仓库中,如果自动导引车(AGV)卡住、产品不可用或设备缺失,缺乏数据就意味着公司无法知道发生了什么以及可以采取什么措施。 不愉快的结果是,将数据转化为洞察往往需要数天、数周或数月。幸运的是,生成式人工智能可以将这段时间缩短至数分钟或更短。将企业数据转化为洞察需要跨组织许多人之间共享深厚的专业知识。然而,由于大部分数据都锁在孤立的金字塔和职能领域内,公司难以从数据中找到新的关系并将其语境化。事实上,enture调查中提到的CXO表示,构建端到端数据基础是扩展生成式AI的主要障碍之一。这个端到端数据基础打破了壁垒,并通过管理整个数据生命周期——从初始收集到使用后管理——使优质数据可获取。连接数据是生成式AI的关键上下文 65%的Acc8 那就是埃森哲正在与宝马合作的事情,使用我们的生成式AI平台EKHO(企业知识和谐协调器)来收集和分析其企业数据。该平台利用大型语言模型来智能地回答跨业务职能和使用场景的复杂问题。平台的核心包含多个AI赋能的应用(GPT代理),这些应用能根据用户的问题和企业特定数据智能地选择合适的数据源并提取信息。得益于平台的灵活性,EKHO可以应用于公司内大量的任务——甚至在前台展厅。在这些和其他方式中,企业可以将生成式人工智能应用于打破数据孤岛并发现更高效的 工作方式。为此,组织的每个部分都必须使数据可访问,并将其视为有价值的产品——可靠、安全且易于使用。公司还应在创建、使用和管理其数据产品所需的架构和运营模式上进行投资。例如,创建一个“语义”层可以帮助公司根据业务概念组织和定义其数据,以使人和生成式人工智能更容易理解和参与数据。一家零售公司,比如,可能拥有大量客户互动、销售记录和产品详情的数据集。尽管它会将原始数据存储在数据库中,但这些数据不会是跨职能的,并且很难解释。通过创建语义层,销售人员可以轻松地使用“Q1的总销售额”等术语来搜索数据。而且,由于数据会以上下文的形式呈现(例如客户满意度评分与销售量的关系),生成式人工智能也能分析趋势并做出准确的预测。 与数据相关的风险可能来自多个方向。生成式人工智能使数据和人工智能工具更加易得,但通常缺乏防止人为错误的安全措施。生成式人工智能也可能被故意滥用以造成伤害,例如通过创建深度伪造、对数据进行“污染”以及去匿名化数据。生成式人工智能加速数据风险生成式人工智能为公司带来了巨大的前景,但也创造了并加速了与数据相关的风险。这些风险可能是法律的、声誉的或两者兼有。它们可能涉及质量、隐私、安全、偏见、歧视和知识产权等领域。例如,在2023年12月,《纽约时报》起诉了OpenAI,因为其未经许可就在报纸的文章上训练了其模型。9 为了减轻这些风险,公司应采用强大的数据治理——这通常是负责任的AI计划中包含的内容。例如,埃森哲自己内部的负责任的AI计划就有四个主要组成部分。而且由于数据生成式AI的法律法规因地区而异且发展迅速,未来几年法律合规可能会变得更加具有挑战性。例如,将于2026年全面生效的欧盟人工智能法案,将AI系统分为三类并进行相应监管(全面禁止、广泛监管或适度监管)。11难怪同 Accenture 调查中 42% 的组织表示,他们需要帮助制定负责任地使用生成式 AI 系统的政策、治理和风险管理流程,以确保符合法规和法律。10 Accenture 正在与其他组织分享其负责任人工智能计划的最佳实践。该公司最近与 S&P Global 合作,为这家金融数据提供方的 35,000 名员工提供培训,内容是如何使用负责任的方式扩展和利用生成式人工智能进行创新。12第二个组成部分包括进行初步风险评估和监管/执法审查。第三个组成部分包括实施开发和采购AI的标准,将严格的控制嵌入到公司的技术、流程和系统中,并开发测试工具和基于角色的员工培训。第四个组成部分包括在其整个生命周期中对AI应用程序进行持续监控和合规性管理。第一项涉及提高对数据和其它人工智能相关风险的认识,建立负责任的AI原则和政策,并设立专门负责负责任的AI团队。 生成式人工智能启动数据准备这不仅仅是数据能为生成式AI做什么,也是生成式AI能为数据做什么。将这项技术应用于公司的数据流程可以增强其数据供应链的各个方面,从捕获和整理到消费。生成式AI可以总结和分类业务数据需求,设计文档和测试用例,并生成操作手册和部署脚本。如前所述,生成式AI也能创建合成数据。有大量其他机会将生成式人工智能应用于数据迁移和现代化计划。例如,人工智能代理团队可能会自动化重写和改进软件代码的任务。一个代理可以协调工作流程。另一个可能会处理代码转换。还有一个可能会专注于解释原始系统和新系统的工作原理。(与人团队一样,人工智能代理团队通常比单独行动时更高效、更有效地完成任务。) 在公司数据供应链中广泛应用生成式人工智能,需要持续维护知识库,例如元数据(“关于数据的数据”)、不同数据集的描述性标签以及跟踪数据随时间变化的服务工单。当数据生命周期(数据的创建、处理、存储和使用方式)最终被生成式人工智能转变时,公司需要更新