AI平台与MLOps/ModelOps建设实践总结
AI平台建设目标
建设背景
中原银行AI平台建设旨在解决现有建模流程中存在的资源分配不均衡、环境构建复杂、数据准备困难、模型开发工具简陋、模型上线困难、工作协同缺失等问题。
建设目标
通过建设云原生一站式机器学习平台,实现开发工具集成化、资源管理智能化、模型开发工程化、数据管理专业化、资源调度分布式计算、资源作业管理、分布式存储、编码/调试自动化、模型训练一键式发布、开放式模型服务等目标。
MLOps概念
MLOps是机器学习时代的DevOps,旨在统一ML系统开发(dev)和ML系统部署(ops),连接模型构建团队与业务及运维团队,建立标准化的模型开发、部署与运维流程,应对基于ML的应用的工程化问题。
MLOps原则
MLOps遵循测试、监控、持续性、再现、版本化、自动化等原则,确保模型开发、部署和运维的效率与质量。
建设历程
- 2019年8月:AI平台上线,与北京九章云极合作。
- 2020年10月:环境拆分。
- 2022年9月:产品上线。
- 未来规划:扩容AI平台计算集群,升级并拆分为训练和推理环境,通过模型管理平台对模型全生命周期进行统一管理。
AI平台建设实践
功能架构
- 数据接入与管理
- 数据处理与加工
- 模型开发与训练(编码建模、工作流建模、训练过程可视化)
- 模型评估
- 模型发布(模型文件、模型属性、模型解释、模型评估、模型仓库)
- 模型服务(模型监控)
- 环境管理与资源调度
- 系统架构
AI平台建设思考
云化AI算力
采用K8S + Docker算力资源池,支持CPU + GPU,使用CDH、Spark、Flink等技术。
算法开源算法集成算子库自动建模
预置200多种常用算子,支持自定义算子,使用Python、R、Pyspark等语言进行算子定制。
数据解决方案
提供面向AI场景的数据服务与数据治理,建设特征仓库,增强特征仓库功能,解决数据来源多样、数据类型多样、数据标准不统一、海量数据存储困难、传统数据中台与AI数据需求欠匹配等问题。
部署架构
模型管理平台连接生产环境、测试环境、训练集群、推理集群,实现模型全流程管理。
ModelOps建设实践
模型管理的背景
国际、国内监管文件对模型管理提出明确要求,模型风险事件频发,行内模型管理存在诸多痛点。
模型管理的目标
构建模型、指标、人才等资产库,实现资源全局掌控;拉通模型生命周期流程,提升业务响应效率;打造产品级监控预警功能,有效把控模型风险;构建全行模型生态,提升模型管理精细化水平。
ModelOps介绍
ModelOps是DevOps及MLOps的扩展,打通模型需求、开发、验证、审批、投产、应用、迭代以及下线的全流程,实现模型全生命周期的流程化、标准化闭环管理。
ModelOps与MLOps
ModelOps是MLOps的扩展,更侧重于模型的全生命周期管理。
中原银行ModelOps体系
- 模型管理平台:模型全生命周期一站式管理平台。
- AI平台:统计算法类模型开发平台。
- 智策平台:规则策略类模型开发平台。
中原银行ModelOps系统架构
连接数据服务平台、业务侧指标引擎、智策平台、AI平台、开发训练环境、开发管理、测试管理、需求管理、迭代管理、监控管理、资产管理、上线管理、规则流、规则集、服务编排、特征工程、模型训练、数据准备、数据探索、特征衍生、模型评估、运行推理环境、规则流、规则集、规则服务、版本管理、模型仓库、模型服务、特征仓库、模型管理平台、业务系统、批量调度、规则集。
模型管理组织架构
构建模型管理组织架构,明确各部门职责。
模型管理制度建设
制定“1个议事规则,3大办法,4个标准,1套规范”的模型风险管理制度体系。
模型管理关键流程
实现模型全生命周期流程管理。
模型资产管理和治理
发布《模型资产管理规范》,依托模型管理平台实现模型资产全流程线上化闭环管理,对常用模型文档统一模板。