您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [麦肯锡]:做对 : MLOps 在能源和材料 - 发现报告

做对 : MLOps 在能源和材料

钢铁 2024-05-24 麦肯锡 阿杰
报告封面

全球能源与材料实践 做对:MLOps在能源和材料 能源和材料中的机器学习模型具有潜力,但也可能产生风险。集成方法可以避免负面的下游影响,同时提高效率。 本文由蔡新如、本·埃伦克威格、拉波·莫里、布莱恩·理查森、亚历克斯·辛格拉和罗德尼·泽梅尔共同撰写,代表了麦肯锡全球能源与材料实践的观点。 许多能源和材料公司使用人工智能和机器学习(AI / ML)模型对核心流程或操作做出艰难的决策。例如,在采矿中,爆炸优化模型可以帮助确保安全,同时最大限度地提高生产率和效率,维护监控模型可以帮助预测和预防设备故障,以确保员工的安全并最大限度地降低维护成本。 系统不会结垢,并允许警告标志从裂缝中溜走。 实施模型风险管理实践 无论他们在数字化实施方面走了多远,使用人工智能系统的公司都会努力应对一系列常见的风险问题。 管理机器学习模型的统一方法不仅可以帮助公司控制风险,还可以使运营更加可靠,高效和易于扩展。MLOps在整个应用程序生命周期中建立了关键实践,从而提高了生产率,速度和可靠性,同时降低了风险。我们的研究表明,当MLOps获得正确的支持并涵盖整个 —矿业公司使用AI优化运输周期和调度决策。输入这些模型包括来自车队管理系统的数据、拖运卡车中的传感器、铲车和辅助设备(如温度和压力)。 —公用事业公司使用预测模型通过监控资产的运行状况来防止设备故障。未能根据模型输出及时做出决策可能会导致维护成本较高,设备的可用性或使用不足。例如,运行过热的处理器可能会导致故障,从而中断操作。 人工智能生命周期(包括数据管理、模型开发和部署以及实时模型操作)可以显著提高能源和材料公司的绩效。1 了解风险:质量和治理挑战 —石油和天然气公司使用人工智能和数字化来提高水处理能力并优化排水量。未能及时做出运营决策将导致不遵守法规和对环境的负面影响。 治理实践可以帮助降低风险,并确保分析解决方案的影响是可持续的。但根据我们的经验,许多公司的人工智能或模型管理实践有限或没有,许多公司缺乏记录、测试、实施和监控风险管理的全公司标准(参见边栏“不同级别的风险准备”)。 考虑到这些示例,公司可以实施四种风险管理实践,以帮助确保数字工具的可持续影响:盘点,分层,监控和实施。 在整个行业中,一旦实施人工智能系统,就需要严格的绩效管理,包括持续监控的框架。2也就是说,对于缺乏数据科学团队或所需数字工具的公司来说,实施这些框架可能是具有挑战性的。尽管公司在推出新车型时经常会有手动监控系统,但这些系统很快就会变得站不住脚 随着数据集规模和复杂性的增长,防止 模型清单涵盖了模型的主要特征 模型清单作为所有模型的关键信息的摘要,例如相关特征和其他关键元数据。因此,应建立清单以开始模型生命周期管理过程。 例如,一家拥有200多个高级监控模型和AI工具的能源公司建立了一个存储库,以保存有关该模型的所有相关信息。对于预测性维护模型,清单可能会捕获模型类型(记分卡、回归、ML或AI)、平台、状态和适用位置。此外,模型 模型管理者可以停用这些无效模型,并建立新的模型,考虑更多相关变量。 考虑到这些要点,模型清单的初步结构包括以下维度:模型特征、层、治理和参考文档。然后,这些维度中的每一个都进一步分为子维度,包括项目描述、模型使用、模型依赖和关键利益相关者。 依赖关系将包括馈送到模型输出或从模型输出的上游和下游模型。 可以列出关键利益相关者以跟踪供应商选择,开发人员,审阅者,用户,实施者和业务发起人。 模型分层提供了分配风险评级的结构 模型层确定审查频率、深度和升级路径(图1)。主要级别由两部分组成:模型重要性和模型风险,这两部分都由通常分配低、中或高评级的多个维度提供信息。 模型库存应该是全面的,包括在业务决策中使用的生产过程中运行的所有模型。例如,一家矿业公司可以在每次轮班开始时依靠优化的卡车分配模型来决定部署多少辆卡车以及部署在哪里。该模型考虑了矿山的地质情况,当天的路况以及卡车司机的驾驶模式,以优化吞吐量。 在所有模型中,应该有一个文档不断更新以考虑新的 风险准备水平不同 全数字化转型。进行全面数字化转型的公司通常与机器学习运营提供商合作,以帮助维持新实施的AI模型的影响。数以百计的模型可以集中清点,高管可以实时访问模型性能,数据科学团队可以及时了解模型输入或输出恶化情况,并轻松校准参数或模型方法。 实施MLOps的公司 在不支持转型的情况下采用。一些公司将机器学习工具投入生产,但这样做招致了技术债务,并无意中承担了大量 根据他们的机器学习模型的成熟度,他们面临着不同的挑战。 数字采用率有限。随着竞争对手实现效率和生产率的提高,不使用最新数字技术的公司可能会落后。但是,部署新模型通常需要一套数字工具 从根本上改变了流程的一部分,使它们具有实施的挑战性。 附件1 模型重要性和风险表明后果的严重性以及模型未按设计执行的可能性。 如果模型未按预期执行,模型重要性可作为后果严重性的指标。它基于以下三个因素: —Model reliance checks the degree of reliance on themodel output for the overall business decision. Thisassesses the reliance on the model results placed indetermining the extent to the model results are reliedupon within business decision processes. —外部影响评估模型对第三方或潜在声誉损失的影响。它从关键的外部方角度评估模型失败所造成的影响。 模型风险表示模型无法按设计执行的概率。例如,通常需要手动输入温度的模型容易出错,并且更有可能做出不正确的预测。相比之下,依赖AI的模型可以从附近的气象站获得自动读数。考虑到这一点,模型风险基于以下四个因素分配: —模型临界性决定了总体重要性,例如投资组合的大小和模型所解决的损益(P&L)影响。临界性评估模型应用于多少风险敞口或模型失败将导致的潜在损失。 模型重要性和风险分层都可以使用涵盖所有因素和聚合规则的问卷进行评估(这些问卷定义了度量如何与一个或多个维度进行集成)。例如,问卷可以通过询问“是否有任何适用于基于模型输出的运营或业务决策的监管要求?”来评估外部影响。 —模型输入评估输入数据的质量以及其来源是自动还是手动。 —模型设计评估模型方法的复杂性。 —模型实现评估实现的稳定性和控制-例如,模型复杂性和数据验证检查过程。 模型监控可通过指标、频率和过程进行风险跟踪,以检测模型性能模型开发的生命周期包括数据管理、开发、部署和实时模型操作(图2)。 —模型使用评估对模型的操作依赖-例如它是闭环还是需要人机交互。 作为生命周期的最后步骤的一部分,公司可以定期监视或审查模型性能和业务参与,以确保它们反映业务目标。考虑到这一点,以下主题可以帮助公司监视和审查不同的模型: threshold. Every recall of a piece of equipment to thefactory for maintenance provides an 有机会收集数据并确定模型的预测是否准确。例如,该模型可能会说车辆的轮胎还有两个月的使用时间,应该更换以确保安全。然后,可以将这些预测的准确性输入到机器学习工具中,以刷新准确性并为下一次维护检查设置时间表。最后,可能需要重新校准或培训来解决模型审查中发现的任何问题。 —生产前审查。模型在发布到生产之前进行审查。这涵盖了数据质量和回溯测试模型性能等方面。那些低于标准的模型将经历更频繁的定期审查。审查还包括模型实施的验证和模型层的审查,以确保其设置正确。 —根据监控结果,企业领导者可以建立持续监控并采取四个潜在的行动。所有模型的默认监控器和触发器集可能涵盖以下元素:模型输出、数据输出、用户反馈、模型使用和监管。由此产生的操作包括发送通知以将模型从生产中取出,启动即时根本原因分析,发送具有保守阈值的警告通知,并发送具有更宽松阈值的警告通知。 —持续监测和定期审查。验证过程评估算法是否按预期工作,以及是否它的使用在当前环境中仍然是适当的。 自动监控检查可以捕获模型中的潜在问题并触发根本原因分析。 —对于所有模型,持续监控指标都是相同的,并且要采取的操作在重要性级别上有所不同。这些指标通常分为两类:自动和手动。前者可以跟踪输出异常、缺失数据和模型接受率等,后者可以帮助确保模型按预期使用,监管变化反映在模型输入、输出和假设中。 手动监控还可以跟踪模型使用、层和管道的潜在更改,并反映与模型清单相关的任何内容的更改。 最后,定期审查旨在在生产中出现潜在问题之前确定这些问题,例如可能影响模型层的模型使用情况的任何更改。审查频率由模型层确定,并且在开发过程中确定的任何性能问题(例如,可以更频繁地审查被确定为性能较差的模型)。 —根本原因分析旨在了解在持续监测或定期审查过程中发现的问题,并找到减轻这些问题的方法。产品所有者负责与模型开发人员共享合并的和优先的问题,并提供预期的 一旦模型部署并使用,就可以对其进行监视和维护,例如,在部署了预测性维护模型之后,可以实时收集其输入和输出, 可以验证假设,并且触发警告可以让用户知道何时级别违反某些 每个问题的时间框架。模型开发人员负责执行根本原因分析,以了解已识别问题的根本原因(请参阅侧栏“分析结果”)。 分析结果 模型开发人员可以与产品所有者合作以识别潜在问题。根据所识别的原因,他们可以通过以下方式进行响应: 重新开发模型。问题是由模型计算中的错误触发的。模型开发人员应通过重新开发模型来缓解此问题。 由数据工程师解决的输入或管道问题。问题是由模型输入或管道中的任何更改或错误触发的。 模型重新校准。问题是由模型计算中的错误触发的,模型开发人员可以通过执行模型重新校准来缓解问题。 不需要采取任何行动。问题是由模型输入或模型管道中的一次性错误触发的,不需要任何其他操作。 没有机器学习操作背景的成员可以熟练学习相关实践。 模型实施可实现持续监控 一旦模型移动到生产环境,公司可以采用新的工具和结构来支持其使用,并确保结果准确和最新。根据流程,这些工具可以具有复杂的交互(图表3)。 迈出抵御风险的第一步,同时从ML/AI模型中充分发挥潜力 监控流程,如开发和部署、根本原因分析,甚至自动化监控-需要人员监督他们。这些角色包括数据科学团队和数据工程团队,以及产品所有者、模型库存和分层所有者以及用户。当前数据科学和工程团队 希望实施模型风险管理的公司可以采取一系列措施来改进实践和预防风险。 他们可以从编目、分层和监控现有模型开始,以更好地了解他们的技术优势和劣势以及当前的风险。 公司需要在整个组织中建立风险意识,以便更多的人感到有能力注意和报告模型出错的情况。 从数据管理到实时运营,监控工具具有复杂的交互。 麦肯锡公司 已经依赖高级分析来做出产品决策的公司也可以提高数据科学和数据工程团队的技能,使用一套统一的工具大规模监控模型。 生成AI。公司可以使用的工具和模型的复杂性日益增加,这提高了负责任地管理它们的重要性。 更广泛地说,公司还应该与用户进行持续变更管理,以便模型经理能够识别生产率下降的预警迹象和其他公司需要在整个组织中建立风险意识,以便更多的人感到有能力注意和报告模型出错的情况。3持续变更管理在当今时代越来越重要 对于依赖复杂数据集和高度优化流程的高技术行业,正确的预测可能意味着平稳性能和完全关闭之间的差异。了解和管理模型风险是整体运营中的关键要素,随着技术的不断发展,它只会变得更加重要。 蔡心如是麦肯锡纽约办事处的合伙人罗德尼·泽梅尔是高级合伙人;Ben Ellencweig是斯坦福德办事处的高级合伙人;Lapo Mori是丹佛办事处的合伙人;布莱恩·理查森是温哥华办事处的合伙人;以及