姓名:胡霞 个人简介 胡 霞 资 深 运 维 工 程 师 负责君巡智检平台建设,拥有丰富IT运维开发经验,专注运维自动化、系统监控、故障诊断与应急响应等技术领域,致力于通过技术创新提升系统稳定性和运维效率,全面推进系统稳定性保障体系规划建设和落地。 数字化基建背景下的运维左移 数据驱动的系统稳定性保障体系 目录 稳保落地实践——君巡智检平台建设 总结与展望 数字化基建背景下的运维左移 数 字 化 基 建 背 景 下 的 运 维 左 移 数据驱动的系统稳定性保障体系 如何提高系统的稳定性? Google SRE中(SRE三部曲[1])有一个层级模型来描述系统可靠性基础和高层次需求(Dickerson's Hierarchy of Service Reliability),如下图: 系统稳定性评估的问题与现状 背景:应用系统稳定性直接关系到金融机构的运营效率与客户满意度,目前稳定性治理存在以下问题: 数据整合困难 度量标准不统一 指标碎片化 部分稳定性评估仍依赖于人工判断,这不仅效率低下,也增加了误判的风险。 指标的度量方法缺乏一致性标准,这使得不同系统之间的稳定性难以进行比较和分析。 数据异构性与信息孤岛,增加了稳定性指标整合与信息关联的难度。 稳定性指标的收集与存储分散在不同的工具平台,无法全面反映系统的整体稳定性水平。 针对上述问题,建立一套科学、高效的系统稳定性保障能力自动化评估办法,分解影响业务连续性因素节点,量化评估节点的有效性或运作质量,通过可量化指标及工作流程机制驱动组织能力、流程协同机制、工具的完善,提升业务连续性。 规范引领,标准先行 DevOps技术运营标准 技术运营落地实践 运维数据治理基础 IT运维管理基础 系统稳定性保障基础 稳保落地实践——君巡智检平台建设 平台设计思路 平台数据流图 平台建设策略 稳定性量化指标数据治理 数据整合 以监控告警能力子域为例,目标能力得分为3级的指标采集如下: 风险等级定义 评估模型 平台内部标准分级定义 充分智能化05 精细化、部分智能化04 以系统平台能力为重点,兼顾流程规范性与人员实践能力 系统化/平台化03 将PDCA的持续改进提升理念融入标准能力项,不断优化平台,规范流程、提升实践能力 自动化/脚本化02 部分自动化01 总结与展望 04 T h a n k s 荣誉出品