您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [麦肯锡]:MLOps , 以便 AI 可以扩展 - 发现报告

MLOps , 以便 AI 可以扩展

信息技术 2024-03-27 麦肯锡 极度近视
报告封面

重新接线 MLOps,以便AI可以扩展 ML开发中的大多数失败不是来自开发糟糕的模型,而是来自糟糕的产品化实践。 建立先进的AI就像发射火箭一样,第一个挑战是最大程度地加速,但是一旦开始加快速度,您还需要专注于转向。 - Jaan Tallinn 对于AI/ML为了对公司的底线做出相当大的贡献,组织必须在整个组织中扩展技术,将其融入核心业务流程、工作流程和客户旅程中,以实时优化决策和运营。这对于AI/ML模型尤其困难,因为它们 跨业务领域的可靠AI扩展。然而,有了所有这些新功能,需要记住的关键点是,有效的ML操作(MLOps)需要关注全套应用程序开发活动,而不仅仅是关注模型本身。我们估计,机器学习开发中90%的失败不是来自开发糟糕的模型,而是来自糟糕的产品化实践以及将模型与生产数据和业务应用程序集成的挑战,这使得模型无法扩展和执行。 随着基础数据而变化的“活生物体”。它们需要不断的监控,再培训和去偏见-即使是几个ML模型也是一个挑战,但几乎是数以百计的挑战他们的。 有效的产品化需要开发一组集成的组件来支持模型(或通常是一组模型),例如数据资产,ML算法,软件和用户界面。1 近年来,ML工具和技术的大规模改进极大地改变了ML工作流程,加快了应用程序生命周期,并实现了一致和 定义关键术语 人工智能(AI)涵盖了创建智能智能机器的广泛概念。 机器学习(ML)是人工智能的一个子集。这是一种从数据中“学习”以提高某些任务的性能的方法。 深度学习是机器学习的一个子集。它使用大量的数据和复杂的算法来训练模型。 来自多个来源的各种大型和越来越小的语言模型之间的轻松交互,这反过来需要强大的标准和功能;3)持续的风险评估、监控和微调,这对于维护gen AI应用程序的完整性和有效性。 更新原始章节: 生成AI(gen AI)的增长正在导致MLOps格局的演变,因此需要扩展现有功能以构建更全面的gen AI基础设施。这是因为gen AI模型的性质引入了固有风险 MLOps实际上是在ML模型的整个生命周期中应用的一组实践(展览): due to their “black box ” nature and tendent togenerate false outcomes (hallucinations) or outputnot anchored in factual data. The reliance on externallarge language models (LLM) also planfies privacyconcerns. —数据:构建系统和流程,为ML应用程序大规模持续收集、管理、分析、标记和维护高质量数据。 为了应对这些复杂性,Gen AI的MLOps框架中出现了三种至关重要的功能:1)自动化和数据管道开发,这对于吸收各种数据源以支持Gen AI并促进其向生产的过渡至关重要;2)模块化和模型-应用程序相互作用,这使得 —模型开发:专业的模型开发,以确保高质量的算法可以解释,没有偏见,按预期执行,并 Exhibit MLOps应用于整个AI/ML模型生命周期。 AI/ML模型生命周期中的MLOps实践 为了确保提供ML模型的数据可用性,您需要从原始数据中提取驱动ML模型的功能。 持续监控并使用新数据定期更新。 —数据和模型管道:通过提供集成的应用程序管道,使其接受数据或事件、处理和丰富它们、运行模型、处理结果、生成操作以及监视不同的组件和业务KPI,最大限度地提高业务价值并减少工程开销。 这些功能是ML模型的燃料。例如,气压是由大气传感器测量的,但天气预报模型中的功能是气压的变化。功能存储是这些功能的中心库。功能存储管理、维护和监控功能,确保ML模型所需的燃料始终可用。 —生产和扩展:增强数据处理和模型训练组件以大规 模运行,包括 2.提供工具以优化ML开发 增加测试、验证、安全性、持续集成和持续交付(CI / CD)以及模型重新训练。 编写可复制,可维护和模块化的数据科学代码并不是微不足道的。软件框架,如Kedro(使用Python)的目标 他们借用软件工程中的概念— —包括模块化、关注点分离和版本控制— —并将其应用于ML代码。 —LiveOperations:主动监控资源、性能和业务KPI。 这是一个持续的过程,要求您构建强大的工程和ML应用程序实践,以不断开发、测试、部署、升级和监控端到端AI应用程序。 数据科学家喜欢实验,尝试不同的数据/特征和不同的算法来开发满足业务结果的模型。这些实验需要与任何关联的元数据(例如,所使用的功能或所使用的任何其他模型配置)一起存储在某处。MLflow和MLR等工具提供了模型治理和重现这些实验的能力,还可以跟踪哪些实验产生了更好的业务结果。 MLOps基于DevOps工程概念和端到端自动化,以解决AI的独特特征,例如ML输出的概率性质以及技术对底层数据的依赖。 当公司采用MLOps最佳实践时,它可以大大提高是实现的。这是尝试AI和通过AI改变公司竞争地位之间的区别。有效的MLOps依赖于实施四个关键实践: 3.实施ML交付平台以尽可能自动化 从小规模数据科学探索和模型开发到大规模生产通常涉及代码重构、切换框架和重要的工程工作。这些步骤可能会增加大量延迟,甚至导致整个解决方案失败。 1.确保数据可用性、质量和控制,以支持ML系统ML模型依赖于数据。没有高质量的数据和可用的数据,ML模型将无法准确或可用。所以,您需要实施数据质量检查。现在可以使用工具来评估数据质量并检测异常以发现错误。这在高吞吐量场景中很有用,例如监控财务交易。 设计和实现持续ML应用程序交付平台至关重要。该平台应执行可扩展的自动化管道,以处理数据、训练、验证和 案例:缩短AI应用开发时间 一家亚洲金融服务公司能够将开发新的AI应用程序的时间减少50%以上。它在源系统的基础上创建了一个通用数据层,该数据层提供了高质量的随时可用的数据产品,可用于众多以客户为中心的AI应用程序。 该公司标准化了数据管理工具和流程,以创建可持续的数据管道,并创建了资产以标准化和自动化耗时的步骤,例如数据标记和数据沿袭跟踪。这与公司以前的方法截然不同,在以前的方法中,每次开发AI应用程序时,团队都会使用不同的流程和工具从源系统中结构化和清理原始数据。这种方法导致了漫长的AI开发周期。 打包用于生产的高质量模型。此外,ML平台应部署集成的在线应用程序管道 行为在一夜之间发生了变化。经过历史客户支出模式(大流行前)培训的机器学习模型没有 训练好的模型,运行数据预处理或后处理任务,与数据源和其他应用集成,收集重要数据、模型、应用和业务指标,实现可观察性。 longer able to make effective predictions, such as modelsrecommending a customer should visit a restaurant, eventhough the restaurants were closed. This is whymonitoring model performance and being able to rapidlydiagnate the legal reason for the vari 4.监控模型性能以推动持续改进ML模型不像软件。当软件部署到生产环境中时,所部 署的软件应按预期工作(只要注重质量和严格的测试)。另一方面,机器学习模型是经过“训练的”,这意味着人们需要监控每个模型的工作方式,并对其进行调整,以随着时间的推移改善结果。同样,ML模型对现实世界的数据状况很敏感,并且可能会随着时间的推移而退化,这就是为什么监控它们以确保它们的行为正确非常重要的原因。 Model monitoring should extend beyond looking fordrift. It should also be validating data quality andconformance, and measuring model accuracy andperformance against business KPIs. This more expansiveview of monitoring is particularly important so thatcompanies 只需专注于模型性能,但要评估它对业务的帮助程度。 MLOps是一个快速发展的领域。在撰写本文时,有60多家供应商提供了从交钥匙平台到利基工具的不同MLOps软件工具。 例如,当我们在全球大流行期间被封锁时,客户 经出版商Wiley许可,摘自Rewired:Eric Lamarre,Kate Smaje,Rodney Zemmel撰写的《麦肯锡数字和AI竞争指南》。麦肯锡公司版权所有© 2023。保留所有权利。本书可在任何地方出售书籍和电子书。 EricLamarre是麦肯锡波士顿办事处的高级合伙人,凯特·斯马吉是伦敦办公室的高级合伙人罗德尼·泽梅尔是纽约办公室的高级合伙人.