核心观点与关键数据
AN(自动驾驶网络)分级标准
中国移动联合华为于2019年提出AN理念,设定5级能力框架,目标2025年全网运维自治能力达L4。分级标准从L0(手工维护)至L5(完全自治网络),逐步实现自动化升级。
数据库运维能力分级标准
基于AN标准,制定数据库运维能力分层标准,涵盖故障感知、定界定位、应急处置和底线恢复四个场景,明确L1-L4能力定义。
- L1(手工维护):依赖DBA经验与告警。
- L2(部分自治):程序实现固定规则自动作业。
- L3(条件自治):解耦经验规则,业务人员自主配置。
- L4(高度自治):AI模型替代人工规则,实现全智能化。
运维高度自治的前提
- 数据基础建设:从数据汇聚、建模加工、指标体系三层次构建标准化运维数据中心,促进数据共享。
- 数据汇聚:聚合运维操作、IT运营、日志等全域数据。
- 建模加工:统一入库、分类主题化。
- 指标体系:规范化提炼数据资产。
数据库智慧运维体系(L3级别)
当前体系覆盖故障感知、定界定位、应急处置和底线恢复,实现部分自治。具体实现:
- 故障感知(L4):通过隐患分析平台、告警打分平台实现预感知与后感知,采用波形识别、异常检测、时序预测等算法。
- 定界定位(L4):结合数据、算法与专家经验,利用故障定界定位平台实现全智能化分析。
- 应急处置(L3):支持故障自愈、处置智荐、一键切换,流程包括应急场景检查、场景定位、处置与反馈。
- 底线恢复(L3):自动化备份恢复平台通过循环验证确保数据安全。
“一次故障的悲惨之旅”案例
通过案例展示传统运维流程的痛点,凸显智慧运维的必要性。
研究结论与展望
现状:当前数据库智慧运维体系达L3级别,覆盖四大场景。
短板:
- 故障调度体系不够灵活。
- 预感知场景不足。
- 定界定位准确性待提升。
优化方向:
- 优化平台:改进故障调度体系,健全专家经验库。
- 引入AI:在告警感知与定位分析引入AI算法,结合自处置能力提升效率。
- 推广全域:将成熟场景推广至数据库运维全域,结合集团“九天”平台实现集团化应用。
目标:2024年实现数据库运维全栈L4自治。