如果说2023年是生成式人工智能(Gen AI)被广泛认为具有变革潜力的一年,那么2024年往后将是这种潜力成为现实的时代。实验将让位于商业和财务价值的实现。一些组织已经开始意识到这一价值,并通过降低成本、提高流程效率、创造收入和改善多个行业的服务的形式,对价值进行衡量(德勤人工智能研究所,2023年)。 然而,基于Gen AI的应用的可靠性只能取决于其所依据的数据质量。根据麦肯锡(麦肯锡,2023年)的数据,有72%的受访组织将数据管理视为实施人工智能应用场景的关键要求。 遗憾的是,许多组织仍在奋力实施这样一个数据基础:能够扩展Gen AI所需的越来越多的数据源和越来越大的数据量;使所有Gen AI应用和其他数据使用者都能够实时访问其所需的数据,并以安全、符合隐私标准的方式访问数据。然而,尽管存在这些数据管理方面的挑战,Gen AI仍能带来可观的收益。行业领先的数据管理供应商已在其平台中内置了基于Gen AI的功能。这些功能可加快数据准备和使用,自动优化性能和成本效益,并在不牺牲质量或安全性的情况下,满足业务不断增长的数据需求。 例如,Denodo平台就是一个领先的逻辑数据管理平台,可在必要时以所需的形式向所有使用者(包括GenAI)提供数据。这种方法抽象了Gen AI和其他使用者对多个数据系统的访问,隐藏了潜在的复杂性,同时保证了数据的交付符合预定义的语义和数据治理规则。 Denodo认识到Gen AI在促进数据民主化方面的变革潜力。Denodo平台不仅可以实现任务自动化,还可以为各种角色的用户赋能,从最终用户到开发人员,再到管理员和数据管理员等。 在本意见书中,我们将深入探讨以下几点: 1. Gen AI在企业中的早期应用场景和成功案例2.在企业中使用Gen AI面临的一些挑战3. Denodo平台如何应对这些挑战4. Denodo平台如何利用Gen AI 企业中的生成式人工智能应用场景 Gartner指出,到 2026 年,预计将有超过 80% 的企业在运营环境中使用由 Gen AI 驱动的应用编程接口 (API) 或模型,和/或实施由 Gen AI 支持的应用,这与 2023 年报告的不到 5% 相比有显著增长(Gartner,2023 年)。 德勤人工智能研究所整理了六大行业最引人注目的 60 个 Gen AI 应用场景。最常见的示例包括 了解您的客户:Gen AI 可以汇总信息,为“了解您的客户”(KYC) 等流程提供深刻见解,并根据这些信息创建有针对性的个性化消息。 营销内容助理:对于处理跨品牌组合、采用多种语言的多个网站的组织来说,营销内容管理是一项挑战。为产品描述、图片、视频和音频等个性化的内容创作分配时间和资源十分困难。与传统工具相比,Gen AI 可提供更快、更一致的解决方案,帮助企业高效生成内容。 产品设计助理:产品设计历来需要时间,而众多创意中只有一个能推向市场。克服人类在产生各种创意、激发跨行业灵感和简化概念测试方面的局限性困难重重。通过将 Gen AI 与 CAD 及其他辅助软件相结合,就可以加强原型设计、增强创造性思维、集思广益和促进突破传统的想法。 开发人员代码辅助:开发人员和其他高技能专业人员的需求量很大,且供不应求。为了克服人才缺口,GenAI可以用来辅助开发人员的工作,自动完成代码创建和维护,这样开发人员就可以专注于更复杂的代码编写。 客户支持:Gen AI有可能彻底改变客户互动方式,它利用语音到文本和自然语言输入来产生有同理心的个性化对话,特别是在售后支持和解决客户投诉方面。 资产维护计划:在工业领域,维护计划对于防止设备故障和昂贵的维修费用、延长资产寿命至关重要。GenAI可根据运营因素优化时间表,推荐高效、具有成本效益的计划,同时分析设备数据,以最大限度减少停机时间和提高运转率。 工程师虚拟现场助理:Gen AI赋能的虚拟现场助理可以充当参考工具,快速访问大量技术信息。除了提供相关细节和引导工程师找到合适的资源外,虚拟助理还可以解决特定工程概念、原理或计算方面的问题,从而帮助排除故障。 弹性物流和规划:Gen AI可以帮助识别和模拟供应链中的潜在中断或风险。通过评估港口拥堵情况、运输路线和N级供应商映射,Gen AI可用于预测风险及其对运营的相应影响,也可以建议用来降低这些风险的行动。 数字公民服务:有关政府和公共服务的数据通常采用多种格式,分布在多个位置(例如,本地、云端等)。Gen AI赋能的虚拟助理可以充当公民和政府信息之间的接口,用自然语言回答问题。 企业应用生成式人工智能面临的挑战 随着组织认识到Gen AI的变革潜力,他们开始投资相关技术和能力,并尝试初始应用场景。但是,他们很快就遇到了各种数据相关的问题。根据麦肯锡(麦肯锡,2023年)的数据,有72%的受访组织将数据管理视为扩展人工智能应用场景的关键挑战。例如,要使Gen AI支持的客户个性化服务安全有效,基础客户数据必须准确、及时更新,并需要跨多个不同数据源进行近乎实时的数据访问。 问题在于,Gen AI依赖于大语言模型(LLM),而这些模型本身存在局限性。LLM的智能程度取决于训练它们的数据的智能程度。虽然LLM对历史事件和所有文献都有百科全书式的了解,但他们对贵组织却一无所知,例如有关组织客户、产品或运营的细节,而且LLM的数据集也不会实时更新。如果不具备这一点,Gen AI对任何需要最新客户或业务背景的操作应用场景都毫无用处。 虽然可以利用更多信息对现有基础模型进行训练和微调,并使其了解企业数据和信息,但这种方法往往会带来更多复杂性和挑战。对于大多数组织来说,反复训练LLM所需的成本和技能不仅令人望而却步,还需要让LLM持续了解最新的数据和信息,这使得不断反复训练LLM的迭代过程在当今根本不切实际。 此外,为了将公司信息这类知识嵌入模型,而用公司信息(可能是敏感信息)训练LLM也充满危险性,因为在未来的交互过程中,始终存在数据泄露的风险。精明的用户可能会设计提示,来诱导泄露此类信息,即使模型经过训练可以识别敏感性;但这种训练并不完美。 好消息是,一种新兴的实施模式有望克服LLM的局限性,能以安全有效的方式在企业环境中提供其所需的知识。Meta在2020年的一篇论文中首次提出了检索增强生成(RAG)架构,它很快成为一种以经济、安全的方式利用其他数据和信息增强LLM的首选方法。 检索增强生成可以将实时更新的数据纳入Gen AI的结果中,但这仍然需要一个全面的数据管理解决方案来实时提供相关数据,同时确保数据的质量和隐私合规性。 在传统的机器学习应用场景中,数据在前期训练过程中发挥着至关重要的作用,而Gen AI和检索增强生成正在改变这种模式,要求数据在推理过程中扮演知识扩充层的角色。检索增强生成架构不是通过反复训练模型将知识注入LLM,而是在提示过程中通过额外的上下文窗口添加知识。然后,LLM可以使用提供的其他上下文来生成必要的响应,而无需将这些知识嵌入LLM本身。 检索增强生成的优势包括减少幻觉,提供最新和实时的信息(克服根据“时间点”数据训练模型的局限性);特定领域的知识(如上文所述的产品销售示例);消除成本高昂的反复训练以及对检索的数据来源的可视性(福布斯,2023年)。 这种简单的方法可以应用于结构化和非结构化信息,是为LLM提供额外知识和信息的一种更灵活、更经济、更安全的方式。结合LLM强大的代码生成功能(例如用于查询底层企业数据的SQL),使用检索增强生成的下一代AI应用可为企业开辟新型的强大用户交互方式和释放数据价值的新途径。 但是,需要必要的数据管理基础才能在企业环境中实施检索增强生成。虽然现在可以找到大量简单的GitHub项目,且这些项目旨在证明检索增强生成在桌面设置中对于单个表的强大功能,但在企业环境中针对通常孤立、复杂的企业数据环境中的真实生产数据实施检索增强生成架构可能是一场噩梦。随着组织探索LLM和企业数据源之间更紧密的集成,他们将不可避免地在克服数据孤岛、处理各种数据源类型以及管理复杂而冗长的数据交付管道方面遇到同样的数据管理挑战。 具体来说,组织在采用Gen AI时应考虑以下数据管理挑战: 法规:新的法规、指南和框架正在迅速制定,旨在解决Gen AI系统的运作和用于训练这类系统的数据缺乏透明度、偏见和公平性、潜在的知识产权侵权、可能的隐私侵犯、第三方风险和安全顾虑等问题。新拟议的《欧盟人工智能法案》旨在为高风险的人工智能系统制定全面的法规,对透明度、数据治理、人工监督和风险评估提出具体要求。美国总统颁布的人工智能《行政命令》确立了人工智能安全和保障的新标准,旨在保护美国人的隐私,促进公平和公民权利,维护使用者和工人的利益,促进创新和竞争等等。《韩国人工智能法案》旨在通过对高风险人工智能服务更严格的通知要求和人工智能可信度认证系统等,确保人工智能系统的可信度,从而保护人工智能服务的用户。其他地区的法规和指南提倡甚至强制要求在数据收集中使用隐私增强技术,例如:新加坡提出的生成式人工智能模型人工智能治理框架。 此外,这些法规还对Gen AI结果的可审计性和可解释性提出要求。例如,《欧盟人工智能法案》要求具有可审计性,确保Gen AI没有偏见,不会对使用者造成伤害,并向使用者说明在特定交互过程中使用Gen AI(例如,披露他们正在交谈的聊天机器人,或为他们生成的建议是由Gen AI所提供)。要应对此类审计,就必须能够查看Gen AI在生成特定结果时使用了哪些数据,并确保控制措施到位,以监控哪些Gen AI应用场景在何时使用了哪些数据。 数据质量和可解释性:低质量的数据可能导致不正确或不一致的行为,即“垃圾输入,垃圾输出”。无论是在LLM的模型训练过程中,还是随后通过检索增强生成实时访问企业数据,都是如此。由此产生的“幻觉”会导致最终用户的不信任,而对于受人工智能使用道德规范约束的企业来说,则可能会违反合规性。 因此,对数据质量严格把关很必要,但这还不够。Gen AI还需要“数据可解释性”,也即为生成结果访问了哪些数据。这样,Gen AI用户就能随时确定所使用的数据是否正确和准确,如果不正确,也能轻松采取补救措施。数据可解释性提供了透明度,从而提高了最终用户的信任度。事实上,上述一些法规,特别是《欧盟人工智能法案》,要求按需提供这种程度的透明度。 数据隐私和安全:欧洲的《通用数据保护条例》(GDPR)等隐私法规仍然适用,但挑战不仅限于确保正确的访问控制和落实去标识化措施。Gen AI带来了额外的风险。 下面我们举例说明Gen AI模型如何带来隐私风险。如果使用“Jane Doe”的私人数据来训练模型,那么“我叫Jane Doe,我的电话号码是...”之类的提示可能会导致模型泄露这些信息(Seth & Chang,2024年)。众所周知,模型会“记住”训练数据,从而使问题变得更加复杂。有几种类型的攻击(如训练数据提取)已被证明会泄露LLM的敏感数据(Seth & Chang,2024)。上述所有人工智能法规都要求组织采取控制措施,以降低发生此类侵犯隐私行为的风险。 Denodo如何应对这些挑战-逻辑数据管理 Denodo认为,组织必须发展和重新构想数据管理,因为这种利害关系之重大是前所未有的。组织必须立即采取行动,建立数据管理基础,为即将到来的人工智能驱动的新竞争格局做好准备。 当您回顾推动下一代人工智能应用所需的数据管理考虑因素时,我们认为合乎逻辑的数据管理方法是推动下一代人工智能应用的关键因素。 Denodo平台利用数据虚拟化技术,在增强人工智能应用之前无需迁移或整合数据。它为人工智能应用访问集成数据提供了一个单一的整合网关,并带来了许多其他关键优势,包括: ■一个统一、安全的接入点,供LLM与所有企业数据[企业资源规划(ERP)、运营数据集市、企业数据仓库(EDW)、应用程序API]交互和查询 ■一个丰富的语义层。为LLM提供所需的业务背景和知识(如表格说明、业务定义、类别/标签和样本值)