您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站]:曹立江-中国联通超大规模 IT 系统下稳定性保障能力落地实践 - 发现报告

曹立江-中国联通超大规模 IT 系统下稳定性保障能力落地实践

AI智能总结
查看更多
曹立江-中国联通超大规模 IT 系统下稳定性保障能力落地实践

曹立江业务架构师 曹立江 公司职位中国联通软件研究院业务架构师 负责数字化生产运营保障体系建设与落地负责数字化监控平台整体能力演进与运营推广致力于依托“平台+应用”生态体系,打造联通集团智慧化的生产运营平台,持续推进能力有效落地 超 大 规 模I T系 统 稳 定 性 保 障 的 挑 战 目录 稳 定 性 保 障 体 系 整 体 架 构 故 障 场 景 的 稳 定 性 保 障 能 力 落 地 超大规模IT系统稳定性保障的挑战 面临的挑战 应 用 几 何 级 数 增 长 , 中 间 件 快 速 变 化 , 部 署 动 态 切 换 痛点与问题 故障如何快速发现 故障如何快速抢通 ì指标纷繁复杂看不全,看不清? 故障如何优化预防 故障如何快速定位 ì故障反复出现,复盘改进没有效果? ì系统调用关系复杂,故障排查困难? ì云化架构下容器服务与主机关联关系不清? ì全链路性能瓶颈点和容量水位上线不知道? ì只知道有问题,不知道问题出现在哪里,根因无法定位? ì隐患无法察觉,没有提前治理优化? 稳定性保障体系整体架构 稳定性保障工具建设历程 稳定性保障工具的建设与演进从来不是一蹴而就的,是基于当前的现状与存在的问题,提出解决方案与目标规划,充分借鉴与对标先进的行业经验,从“走出去”到”引进来“,逐步由工具产品化至制度、管理体系化转变的过程 运营保障支撑体系结构框架 运营保障支撑体系:一个目标,依托四大保障,聚焦研运流程中十二项核心工作,严格把控七个关口 数字化监控平台功能架构 基于云原生下的生产运营支撑平台,以全局运营视角解读IT运维,提供端到端、全层级的运维工具支撑,依托大数据与人工智能技术,助力企业数字化业务高效、稳定运行,从传统运维向自动化生产、智慧化运营转变 故障场景的稳定性保障体系能力落地 稳定性保障工具核心能力 全栈可观测性 一键故障诊断 自动化应急处置 故障发现-Metric监控 实现涵盖业务、前端触点、应用、组件、云平台、基础资源的全层级指标数据采集及标准化,统一接入、存储、分析处理标准,提供可观测性能力数据基础 故障发现-Trace链路分析 支持跨系统、跨云平台、跨数据中心链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追踪和方法清单级根因定位,接入应用7000+,日均处理1000亿数据 Ø跨数据中心、跨系统链路自动拓扑Ø应用、组件、主机性能分析Ø方法级根因诊断 故障发现-LOG 通过统一规范的日志采集、分布式存储能力、日志实时检索与异常检测能力,应对在分布式云化技术架构的演进背景下,剧增的集中系统日志数据量带来的挑战,解决在较大规模集中系统日志查询和报文查询方面效率低和不准的问题,提升故障和工单问题定位效率 故障发现-全层级监控告警 告警进行分级管理,以闭环工单为载体,结合短信、钉钉、智能语音等多种告警通知、升级功能,实现6级角色逐层升级策略,确保告警及时响应,并有效处置 故障定位-一键故障诊断 在系统纵向全层级方面实现触点层、应用层、组件层、平台层、主机层、网络层纵向贯通,结合云化CMDB关联定位,建立故障传递模型,实现全层级一键诊断,端到端快速定位问题根因 1.发现业务影响 主机进程Top 触点+业务监控评估影响范围。 2.定位根因应用 利用图数据库关系在海量告警应用中快速定位根因服务,如150个服务告警根因应用缩小到5个左右。 3.定位根因实例 通过核密度估计算法和DBSCAN聚类算法判定根因实例。 故障定位-一键故障诊断 当前一键故障诊断率达75%。 应用实例事件异常:2023-03-XX XX:XX应用实例所在主机CPU使用率过高引发故障根因 RDS事件异常:2023-04-XX XX:XXrds慢sql突增导致节点状态异常是故障根因 Redis事件异常:2022-08-XX XX:XXredis节点夯死,触发高可用,切换master,大量流量进入导致redis性能下降,上游应用大面积告警是故障根因 ES事件异常:2022-05-XX XX:XXes进程负载率突增导致上游服务连接超时是故障根因 Oracle事件异常:2023-02-XX XX:XXoracle会话数突增导致应用连接超时增多是故障根因 快立方内存数据库事件异常:2023-02-XX XX:XX根因应用下游调用快立方告警异常是故障根因 网络事件异常:2022-03-XX XX:XX交换机带宽使用率指标打满引起访问受限是故障根因 主机宕机事件导致lb异常:2022-08-XX XX:XXlb所在主机宕机导致lb实例销毁重启服务波动是故障根因 故障应急-自动化应急处置 基于自动化运维能力,沉淀运维经验,拉通全层级监控告警、事件根因自动诊断、故障应急调度等能力,构建自动化应急预案、告警自愈两级自动化应急处置能力,实现应用实例查杀、重启、扩容、组件主备切换、流量限流、磁盘清理等多种故障场景快速处置 推进思路: •聚焦高频场景•协同场景落地•深入场景运营•能力优化升级•建立信任 故障应急-自动化应急处置 告警自愈月均自愈作业执行1000+次,自愈操作平均执行耗时3s内,近三月自愈成功率达到96%自动化应急预案月均执行100+次,预案生效率80% 故障预防-变更管理 变更管理以基于规章制度、线上化审批流程为基础的流程合规管理,逐步向变更全层级变更轨迹追踪定位、变更过程强制拦截校验管控演进 故障预防-隐患治理 从容量隐患、链路隐患、系统健康度视角,定期开展隐患评估与预测,识别潜在风险隐患,隐患闭环治理,保障系统健康稳定和对资源利用的最优化 目标容量评估 容量问题优化 l对照 保 障 目标,形 成 容量 优 化提升项l制定容量 优 化方案计划l容量再评 估直至 符 合 预 期 容量标准要求 l全链路压测->容量标准达标、链路性能瓶颈评估...l日常流量方法级分析->抖动、不达标率...l指标实时监控->容量风险监控... 故障闭环管理 故障管理实现故障事前、事中、事后全流程线上闭环管理,提升故障管理质量和效率,降低故障时长及次数,提升业务连续可用率 稳定性保障成效 中国联通核心+重要系统可用率99.85% 24年截止当前共避免83起突发事件升级为故障 全层级实时监控,1分钟故障发现 中国联通集中业务系统故障显著压降 全链路深度追踪,5分钟故障根因定位 23年同比21年:数量下降90.58%历时下降87.74% 自动化应急预案,15分钟故障快速抢通 灵魂拷问,举一反三,100%故障闭环追踪 应急演练、健康检查、智能自愈,3重保障 感谢大家观看