中国联通数字化监控平台稳定性保障工具落地实践
稳定性保障工具演进历程
随着云原生技术成熟,企业数字化转型加速,IT架构进入多云多集群时代,传统运维模式面临挑战。主要问题包括:
- 运维生态挑战:工具重复、能力割裂、数据孤岛
- 分布式架构挑战:系统复杂化导致人肉运维难以为继
- 数智运维挑战:端到端稳定性保障体系缺失、自动化智能化不足、故障处理依赖经验且未形成有效资产、被动防御且数据价值未挖掘
稳定性保障工具建设经历了从工具产品化到制度、管理体系化的演进过程,目标是构建端到端稳定性保障体系。
稳定性保障工具落地场景及成效
稳定性保障工具聚焦领域
-
可观测性建设
- 指标:实现全层级指标数据采集及标准化,统一接入存储分析
- 链路追踪:支持跨系统、跨云平台链路拓扑,接入应用6000+,日均处理600亿数据
- 日志分析:统一规范日志采集存储,提升故障定位效率
- 一键故障诊断:覆盖16套核心系统,诊断率达68%,实现全层级快速定位
- 案例:通过触点+业务监控评估影响范围,定位根因应用(如CPU使用率过高、交换机带宽打满等)
-
故障自愈
- 结合告警+故障诊断+自动化运维+应急能力,实现事件自动诊断和自愈(如应用实例查杀、重启等)
- 月均执行1000+次自愈作业,平均耗时3秒内
-
系统隐患预防
- 定期开展容量、链路、系统健康度隐患评估与预测
- 案例:通过AI算法分析全层级核心黄金指标,实现系统健康状态档案化管理
-
稳定性测试
- 端到端全链路压测:评估业务容量水位,定位性能瓶颈
- 全链路隐患分析:结合多维度数据深度分析
-
变更管理
- 实现IaaS/PaaS/SaaS全层级变更轨迹追踪,统一线上化流程管理
-
故障闭环整改
- 实现故障事前、事中、事后全流程线上闭环管理,提升业务连续可用率
当前面临的挑战及未来展望
当前挑战
- 数字化高速发展带来的适配性及泛化性挑战
- 安全生产保障在国际竞争中的重要性
- 国内开源软件供应链“卡脖子”问题
- 大模型对数字化发展进程的冲击
未来展望
- 数字化发展提高系统安全生产保障诉求
- 复杂系统反向提升产品适配能力
- 拥抱开源并突破技术壁垒,实现自主可控
- 信创浪潮带来产品发展机遇
- 大模型变革信息获取及技术创造方式