您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[NGMN]:MLOps for Highly Autonomous Networks - 发现报告

MLOps for Highly Autonomous Networks

信息技术2025-02-25NGMN嗯***
AI智能总结
查看更多
MLOps for Highly Autonomous Networks

V1.2 ngmn.org MLOps 高度自主网络的运维 对于公共文件(P):© 2025 Next Generation Mobile Networks Alliance e.V. 版权所有。未经Next Generation Mobile Networks Alliance e.V.事先书面许可,本文件的任何部分不得以任何形式或通过任何手段进行复制或传播。 本文件中所包含的信息代表了NGMN Alliance e.V.截至出版日期对所讨论问题的当前观点。本文件以“原样”提供,不提供任何保证,包括但不限于任何关于适销性、非侵权或适用于任何特定目的的保证。本文件使用中的所有责任(包括侵犯任何财产权利的责任)均予以否认。本文件未授予任何知识产权的许可,无论是明示的还是默示的。本文件仅用于信息目的分发,并可能随时更改。读者不应基于本文件设计产品。 摘要:简要介绍和文档目的。 本文件描述了启用技术的指南和需求,作为自主系统框架——第二阶段的一个扩展。本文件重点关注通用MLOps,并将探讨适用于自主网络的MLOps,涉及自动化高级自主水平,从检查MLOps流程、需求、架构以及端到端部署和标准化建议等方面进行探索。 文档历史 目录 ���������������������������������������������������������������������������������������������������������������������������6 ��������������������������������������������������������������������������������������������������������������������������������������8 07部署方案选项������������������������������ 7.1 嵌入式网络元素部署����������������������������������������������������������������������������13 7.2 集成单一域部署����������������������������������������������������������������������������14 7.3 实时单一域部署����������������������������������������������������������������������������15 7.4 跨域部署 ���������������������������������������������������������������������� 08标准化建议 17������������������������������16 8.1 当前状况17 8.2 建议 09101112����������������������������������������������������������������������������������������������23参考文献:-----------------------------------------21FIGURES �������������������������������清单:缩写列表�����������������������������致谢 01引言 这份文件题为“高度自主网络领域的MLOps”,旨在提供适用于高度自主网络赋能技术的全面指南和要求。它主要关注ML模型的开发与运营,详细阐述MLOps的过程、要求、架构以及Level 4+自主网络人工智能应用的全流程部署。在此背景下,它审视了适用于人工智能应用的现有及相关管理标准,并提供了标准化建议。 02定义 DevOps 一套旨在促进不同团队间软件产品联合开发、技术运营和质量保证的流程、方法和系统。 机器学习模型 输出由训练数据集训练的机器学习(ML)算法,该算法通过输入数据中的模式生成预测。[1] 机器学习运维(Machine Learning Operations,简称MLOPS) 机器学习(ML)和DevOps中的一种新造术语,代表一系列旨在促进跨不同团队进行需求管理、数据工程、模型开发、模型交付和模型运营的流程、方法和系统。 注意: MLOps整合了机器学习(ML)、DevOps和数据分析工程,以将机器学习系统投入生产,从而实现机器学习产品的开发。它基于持续集成和持续交付(CI/CD)、协作、编排、可重复性(包括数据、模型和代码版本控制)以及持续监控的原则。[2] 03动机 机器学习(ML)技术,作为人工智能(AI)的一个核心子领域,赋予了机器或系统自动获取知识并从人类经验中改进的能力。这一方面对于运营商解决通信网络中既存的以及新兴的挑战具有重要意义。随着智能网络应用的实施在大规模上扩张,阻碍向高级别自主水平进展的障碍也在增加,主要体现在日益复杂的复杂性。随着自主网络在多个管理层或领域(从资源运营、服务运营到业务运营)中部署各种机器学习模型,与大规模部署和维护机器学习模型相关的问题日益凸显。 MLOps 是一套管理流程,旨在连接机器学习模型的开发、部署和运营,将算法与交付和运营团队联系起来,以提高机器学习模型生命周期管理的效率,并促进其大规模应用。它是DevOps的专门版本,用于管理作为一种特殊类型软件产品的机器学习模型。[2]。 应用MLOps将有效解决以可扩展方式采用机器学习技术的实际问题,对于高度自主的网络,通过系统化和自动化的机器学习模型生命周期管理。 04过程 》持续培训(CT): 如图1所示,MLOps工作流程通常包括以下五个阶段: 这是由预设条件的检测触发的,以持续训练机器学习(ML)模型、确保机器学习模型的验证以及相关的测试结果,以满足准确性和一般性性能要求。 • 需求管理: 这包括可行性分析和根据商业目标和要求制定技术解决方案。 » 持续集成(CI): • 数据工程: 这是由经过训练的机器学习模型和源代码的更新触发的,以持续地将来自各个分支的机器学习模型和源代码集成到一个共享的主分支中,并使用自动化测试,以确保新集成的机器学习模型和源代码符合后续交付的发布标准。 这将源数据转换成优化用于机器学习模型训练的格式。 • 模型开发: 这包括使用选定的基础模型进行的机器学习模型训练(包括机器学习模型验证)和测试,以确保输出模型已优化并准备好交付。 连续部署(CD): 这是由新发布的机器学习模型触发的,以持续向仿真环境交付发布的机器学习模型,以模拟机器学习模型的运行条件,这些条件类似于现实世界的资源,并促进机器学习模型自动连续部署到相关生产环境。 • 模型交付: 这包括将开发的机器学习模型与配置、代码和脚本打包,生成可交付成果,并将它们部署到生产环境中。 • 模型运行: 这包括在生产环境中部署的机器学习模型的一个监控(如模型推理性能)和操作维护(如模型激活/停用)。 » 持续监控(CM): 此监控过程是持续的,贯穿于机器学习模型的生命周期始终,监控过程自动识别和监控任何风险和异常事件,同时从事件中采样和收集相关数据,根据计划程序或流程进行管理和控制,以确保机器学习模型不断迭代优化,并准备好进入新的生命周期。 MLOps 工作流程通过以下四个闭环反馈管道自动化机器学习模型的生命周期管理: 05需求 MLOps管理流程主要通过工作流程管理功能实现,并与15个专业功能的精选套件相结合。这些功能旨在支持ML模型的全生命周期管理,确保从开发到部署和运营阶段的系统性监督。功能要求如下: 性能,包括但不限于误差验证、交叉验证等。 模型测试功能: 该功能测试了机器学习模型在测试数据集上的性能差异,这些差异通过预设的评估指标确定,在机器学习模型训练后,以确定机器学习模型的一般化能力,确保机器学习模型满足预期要求。 工作流管理功能: 该功能涵盖t个独立阶段,优先考虑对所有功能的监督和管理。该功能接收来自模型提供者的机器学习模型交付或更新通知,并补充其他管理功能,以确保机器学习模型的整个生命周期管理。 模型构建与集成功能: 此功能构建并打包代码、机器学习模型、依赖项以及其他元素,以生成可交付成果,其中可交付成果的形式包括部署包、镜像等,这些成果可以灵活部署到生产环境中。 数据处理功能: » 模型仿真功能: 此功能通过一系列操作将原始数据转换为可供机器学习模型使用的干净数据,并最终为机器学习模型开发提供高质量数据。这些操作应包括数据清洗、数据转换、数据增强以及其他处理,以减少诸如数据异常、数据缺失和数据重复等问题。 此功能模拟了机器学习模型在独立仿真数据集上的性能和有效性,以便在部署到生产环境之前发现机器学习模型的缺陷。 部署功能: 此功能将机器学习模型部署到生产环境并宣布一个新版本。 模型训练函数: 此功能基于特定业务场景和运营管理需求,使用数据集和机器学习算法对ML模型进行训练和验证,并根据需要调整和优化ML模型。此功能还会根据需求触发(例如,当检测到ML模型性能下降时)重新训练ML模型,确保ML模型在变化的环境中保持性能和准确性。它自动执行由预设条件触发的训练任务(例如,训练数据集的数量),并根据目标指标(例如,准确性)自动在线更新ML模型。此外,模型训练功能验证ML模型以评估它们的 模型解析函数: 此功能提取并分析机器学习模型发布配置文件,以了解需要部署的内容,包括环境配置、接口配置、模型算法等,用于配置和启动机器学习模型服务。 资源检查功能: 该功能检查生产环境是否符合部署要求。 资源编排功能: 此功能基于资源(即,容器、Pod、网络等)进行协调。 环境资源信息以支持机器学习模型的运行。 模型编排功能: 这个函数执行机器学习模型部署、机器学习模型配置和网络配置。此函数还内置了机器学习模型注册表和元数据存储,用于跟踪和记录每个与机器学习模型相关的作业任务的元数据,例如,训练日期和时间、持续时间、性能指标、模型血缘等。[3][4] 模型上线功能: 该函数启动机器学习模型推理服务。 监控功能: 该功能持续监控机器学习模型的整个生命周期,包括输入数据监控、机器学习模型监控以及业务监控。输入数据监控指的是对推理输入数据的质量和分布的监控。机器学习模型监控方面指的是在模型运行阶段对机器学习模型性能的监控。业务监控方面指的是通过预设的业务指标,对机器学习模型服务在业务维度中的性能和有效性进行监控。 » 测量功能: 此功能基于监控结果和业务需求分析机器学习模型的改进方向,按需生成反馈报告。 数据收集功能: 此功能收集了机器学习模型的运营监控数据、推理输入数据和模型训练数据。 模型推理函数: 此功能执行推理分析并提供相关结果反馈。 06架构 MLOps的一般架构如图2所示,包括模型提供者的开发环境、模型操作者的开发环境以及模型操作者的生产环境。 排查机器学习模型故障,并相应更新机器学习模型。 •模型运营商的发展环境,它指的是运营商的机器学习操作(MLOps)工作流的发展环境。在运营商的MLOps平台接收模型提供方交付的机器学习模型后,运营商的MLOps平台执行运营商一侧的MLOps工作流程,并实现对问题进行测试并提供给模型提供方的异常行为。运营商的MLOps平台主要包含以下类型的服务器和系统: •模型提供商的发展环境指的是由不同模型提供商的开发工作流程形成的开发环境。机器学习模型提供商根据其自身的开发工作流程,完成从需求管理、设计、开发、构建、测试等全过程,并生成一个用于交付的机器学习模型。之后,模型提供商向订阅该模型提供商的运营商发送特定机器学习模型的发布通知。当机器学习模型部署后,当模型提供商收到运营商关于当前机器学习模型异常行为的反馈时,模型提供商会分析问题,