AI智能总结
数据红利:推动生成AI 数据领导者应该考虑七项行动,以使公司能够扩展其生成AI的雄心。 本文是Joe Caserta,Holger Harreis,Kayvaun Rowshankish,Nikhil Srinidhi和Asin Tavakoli的合作成果,代表了麦肯锡数字公司的观点。 如果您的数据尚未准备好对于生成式AI,你的企业还没有为生成式AI做好准备。 消耗,以确保所有材料数据的质量,包括非结构化数据。 4.保护您的敏感数据,并随时准备随着法规的出现而迅速采取行动。专注于保护企业的专有数据和保护个人信息,同时积极监控流动的监管环境。 我们的最新研究估计,生成AI可以增加相当于2.6万亿美元的 在63个用例中,每年可带来4.4万亿美元的经济效益。对这些案例中的每一个案例进行分析,它将导致数据。您的数据及其基础是生成AI的决定性因素。 5.培养数据工程人才。专注于寻找对实施数据计划至关重要的少数人,转向更多的数据工程师和更少的数据科学家。 对于大多数首席数据官(CDO)来说,这是一个令人震惊的主张,尤其是当72%的领先组织指出,管理数据已经是阻止他们扩展AI用例的最大挑战之一时。关于可以使生成式AI为业务产生最大价值的变化。 6.使用创成式AI来帮助您管理自己的数据。生成型AI可以加速现有任务,并改善整个数据价值链的完成方式,从数据工程到数据治理和数据分析。 形势仍在迅速变化,并且几乎没有特定的答案。但是,在我们与十几个客户进行大型生成AI数据程序的合作中,与主要公司的大约25位数据负责人进行了讨论,以及我们自己在重新配置数据以提供动力方面的实验 7.严格跟踪并迅速干预。投资于性能和财务测量,并密切监控实施以持续改善数据性能。 1.让价值成为你的指南 在生成AI解决方案中,我们已经确定了数据领导者在从实验转向规模时应该考虑的七个行动: 在确定生成AI的数据策略时,CDO可能会考虑调整约翰·肯尼迪总统的一句话:“不要问你的企业可以为生成AI做些什么;问什么generative AI可以为您的业务做。”专注于价值是一个长期存在的原则,但CDO必须特别依靠它来抵消与generativeAI “做某事”的压力。提供这种对价值的关注,CDO将需要清晰地了解企业生成AI的整体方法对数据的影响,这将在三个原型中发挥作用: 1.让价值成为你的指南。CDO需要明确价值在哪里,以及交付价值需要哪些数据。 2.将特定功能构建到数据架构中,以支持最广泛的用例集。将相关功能(例如矢量数据库以及数据预处理和后处理管道)构建到现有的数据体系结构中,特别是在支持非结构化数据方面。 —Taker:通过API等基本接口消耗现有服务的业务。在这种情况下,CDO将需要专注于使质量数据可用于生成AI模型,并随后验证输出。 3.关注数据生命周期的关键点,确保高质量。从源头到数据生命周期,开发多种干预措施-人为和自动化 能力。推动Shaper方法的一个关键功能是传达交付特定用例所需的权衡,并强调最可行的用例。例如,虽然超个性化是一个有前途的AI用例,但它需要干净的客户数据、强大的数据保护防护以及访问多个数据源的管道。CDO还应该优先考虑能够为业务提供最广泛利益的计划,而不是简单地支持单个用例。 —Shaper:访问模型并根据自己的数据对其进行微调的业务。CDO将需要评估业务的数据管理需要如何发展,以及需要对数据架构进行哪些更改才能实现所需的输出。 —制造商:a business that build its ownfoundational models. The CDO will need todevelop a sophical data label和标记策略,以及进行更重要的投资。 由于CDO有助于塑造企业对生成式AI的方法,因此重要的是要对价值有广泛的看法。与生成式AI一样有前途,它只是更广泛的数据组合的一部分(图表1)。对企业的潜在价值大部分来自传统AI、商业智能和机器学习(ML)。如果CDO发现自己在花费 CDO在支持Shaper方法方面发挥了最大的作用,因为Maker方法目前仅限于那些愿意进行重大投资的大公司,而Taker方法基本上可以访问商品化 他们90%的时间都在与生成人工智能相关的计划上,这是一个危险信号。 一般来说,CDO需要优先考虑数据架构的五个关键组件的实现,作为企业技术堆栈的一部分(图表2): 2.将特定功能构建到数据体系结构中,以支持最广泛的用例集 —非结构化数据存储:大型语言模型(LLM)主要用于大多数用例的非结构化数据。数据领导者将需要绘制出所有非结构化数据源并建立元数据标记标准,以便模型可以处理数据,团队可以找到他们需要的数据。CDO将需要进一步提升数据管道的质量,并建立透明度标准,以便轻松地将问题的来源跟踪到正确的数据源。 数据方面的最大变化是,由于生成AI能够处理非结构化数据,例如聊天,视频和代码,因此价值范围变得更大。这代表了一个重大转变,因为数据组织传统上具有能力只处理结构化数据,例如表中的数据。捕获此值不需要重建数据架构,但想要超越基本Taker原型的CDO需要专注于两个明确的优先事项。 —数据预处理:大多数数据都需要准备-例如,通过转换文件格式和清理数据质量以及处理敏感数据-以便生成AI可以使用数据。预处理数据最常用于为生成AI模型构建提示。为了加快性能,CDO需要对结构化和非结构化数据的大规模处理进行标准化,例如访问底层系统的方式,并确定优先级(或“预聚合”)支持最常见问题和答案的数据。 首先是修复数据架构的基础。虽然这听起来像是老新闻,但企业以前可以逃脱的系统中的裂缝将成为生成AI的大问题。没有生成AI的许多优势将是不可能的强大的数据基础。为了确定要关注的数据架构元素,CDO最好通过确定为最广泛的范围提供最大利益的修复例如个人可识别信息(PII)的数据处理协议,因为任何客户特定的生成AI用例都需要这种功能。 —矢量数据库:矢量化是一种对内容进行优先级排序并创建“嵌入”(文本含义的数字表示)以简化对上下文的访问的方法,互补信息生成AI需要提供准确的答案。矢量数据库允许生成AI模型访问最相关的信息。例如,矢量数据库提供的不是提供一千页的PDF。 第二个优先事项是确定需要对数据架构进行哪些升级才能满足高价值用例的要求。这里的关键问题是如何经济有效地管理 并扩展为生成AI用例提供动力的数据和信息集成。如果管理不当,则存在大量数据计算活动对系统造成压力过大的风险,或者团队进行一次性集成的风险,这增加了复杂性和技术债务。这些问题进一步由于业务的云概况而变得复杂,这意味着CDO必须与IT领导层紧密合作,以确定计算、网络和服务使用成本。 只有最相关的页面。在许多情况下,公司不需要构建矢量数据库就可以开始使用generative AI。他们通常可以使用现有的NoSQL数据库开始 —LLM集成:更复杂的生成AI使用需要与 附件2 麦肯锡公司 —工程提示:有效的提示工程(以从生成AI模型中得出最佳响应的方式构造问题的过程)依赖于上下文。只能从结构化和非结构化源的现有数据和信息中确定上下文。为了提高输出,CDO需要管理知识图或数据模型和本体(一组领域中的概念,显示它们的属性和它们之间的关系)到提示的集成。由于CDO不会拥有整个业务中许多数据存储库的所有权,因此它们 多个系统,这在连接LLM方面带来了重大挑战。几个框架,其中许多是开源的,可以帮助促进这些集成(例如,LangChain或各种超大规模产品,如Azure的语义内核、AWS的Bedrock或Google Cloud的Vertex AI)。CDO将需要设置准则。为了选择要使用的框架,请定义可以轻松使用的提示模板为特定目的进行定制,并为LLM与源数据系统的接口建立标准化的集成模式。 —提示:评估、衡量和跟踪提示的质量。在提示中包含高质量的元数据和结构化和非结构化数据的沿袭透明度。 需要设置标准和资格预审源,以确保输入到模型中的数据 遵循特定的协议(例如,公开知识图API以轻松提供实体和关系)。 —LLM的输出:建立必要的治理程序来识别和解决不正确的输出,并使用“循环中的人”来审查和分类输出问题。最终,通过培训他们来提高个人员工的作用,以批判性地评估模型输出并了解输入数据的质量。补充自动监控和警报功能,以识别流氓行为。 3.关注数据生命周期的关键点,确保高质量 数据质量一直是CDO的重要问题,但数据的规模和范围生成AI模型的依赖使“垃圾进/垃圾出”的真理变得更加重要和昂贵,因为训练一个LLM可能会花费数百万美元。 4.保护您的敏感数据,并随时准备在法规出台时快速采取行动 AI模型比经典ML模型更多,因为数据太多,而且大部分都是非结构化的,因此很难使用现有的跟踪工具。 大约71%的高级IT领导者认为生成AI技术正在为他们的数据带来新的安全风险。生成AI,但CDO需要考虑三个特定领域的数据影响: CDO需要做两件事来确保数据质量:扩展他们的数据可观察性计划,以更好地发现质量问题,例如通过为非结构化内容设置最小阈值以包含在生成AI应用程序中;并在整个数据生命周期中制定干预措施,以解决团队发现的问题,主要在四个方面: —识别企业专有数据的安全风险并确定其优先级。CDO需要评估与暴露业务数据相关的广泛风险,例如当机密和专有代码与创生共享时,可能会暴露商业秘密许多现有的数据保护和网络安全治理可以扩展到解决特定的生成AI风险-例如,每当工程师想要与模型共享数据时添加弹出提醒或通过运行自动脚本以确保合规性。 —源数据:扩展数据质量框架,以包括与生成AI目的相关的度量(例如偏差)。确保结构化和非结构化数据的高质量元数据和标签,并规范访问敏感数据(例如,基于角色的访问权限)。 —管理对PII数据的访问。CDO需要规范如何在生成AI的背景下检测和处理数据。他们需要建立包含保护工具和人类干预措施的系统,以确保PII —预处理:确保数据一致和标准化,并符合本体和已建立的数据模型。检测离群值并应用标准化。自动化PII数据管理,并为是否应忽略、保留、编辑、隔离、删除、屏蔽或合成数据。 数据在数据预处理期间和在LLM上使用之前被删除。使用合成数据(通过数据制造商)和非敏感标识符可以提供帮助。 生成AI不那么重要,因为它允许技术能力不那么先进的人使用自然语言进行基本分析。 在短期内,人才将保持较短的供应,我们预计在不久的将来,人才缺口将进一步扩大,为CDO建立培训计划创造更多的动力。 —密切跟踪预期的法规激增。生成性AI已成为各国政府之间迅速制定新法规的催化剂,例如欧盟的AI法案,该法案正在制定一系列新标准,例如让公司发布受版权保护的数据摘要用于培训LLM。数据领导者必须与业务的风险领导者保持密切联系了解新法规及其对数据策略的影响,例如需要“不训练”使用受监管数据的模型。 6.使用创成式AI帮助您管理数据 数据领导者有巨大的机会利用生成式AI来改善自己的功能。在我们的分析中,在整个数据价值链中出现了八个主要用例,其中生成式AI可以加速现有任务并改善任务的执行方式(图表3)。 5.培养数据工程人才 许多供应商已经推出产品,要求CDO识别他们可以依赖供应商的能力以及他们应该建立自己的能力。一个经验法则是 随着企业越来越多地采用生成式AI,CDO将不得不关注对人才的影响。一些编码任务将由生成AI工具- GitHub上发布的41%的代码是由AI编写的。 数据治理流程是业务独有的,最好构建自己的工具。请注意,许多工具和功能是新的,可能在实验环境中运行良好,但不能大规模运行。 关于使用生成AI “副驾驶”的特定培训-麦肯锡最近的一项研究表明,高级工程师与生成AI副驾驶的工作比初级工程师更有效率。数据和AI学院需要纳入针对特定专业知识水平的生成AI培训。 7.严格跟踪并快速干预 在当今的生成AI世界中,未知因素比已知因素更多,公司仍在学习前进的道路。因此,对于CDO来说,建立系统以积极跟踪