您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[联通软件研究院]:中国联通数字化监控平台稳定性保障工具落地实践 - 发现报告

中国联通数字化监控平台稳定性保障工具落地实践

2025-04-29-联通软件研究院玉***
AI智能总结
查看更多
中国联通数字化监控平台稳定性保障工具落地实践

曹家豪联通软件研究院项目经理 目录 2 CONTENTS 当前面临的挑战及未来展望 3 01稳定性保障工具演进历程 数字化转型中系统安全生产痛点问题 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业IT架构进入云原生时代,多云多集群部署已经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为继,如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。 运维生态挑战 分布式架构挑战 工具重复:工具按烟囱式建设,能力分散能力割裂:运维工具能力割裂不成体系数据孤岛:应用、数据库、中间件、云平台、基础设施各管自身 维护对象:系统节点、微服务数量几何级数增加调用关系:从简单对应到极其复杂,人力维护无法胜任数据分片、异地存储,传统维护模式难以为继 数智运维挑战 端到端稳定性保障体系缺失,自动化、智能化故障处理能力不足故障处理过多依赖专家经验,故障没有沉淀为有效的资产故障处于被动防御,救火,运维大数据未被合理价值挖掘 稳定性保障工具建设历程 稳定性保障工具的建设与演进从来不是一蹴而就的,是基于当前的现状与存在的问题,提出解决方案与目标规划,充分借鉴与对标先进的行业经验,从“走出去”到”引进来“,逐步由工具产品化至制度、管理体系化转变的过程。 稳定性保障工具建设历程 一个目标,依托四大保障,聚焦研运流程中四个阶段,对应十五项核心工作,严格把控七个关口,将安全生产稳定性保障左移,在入网控制时介入,对入网控制、发布上线、故障预防、故障发现、故障定位,故障恢复、故障改进提供端到端工具支撑。 02稳定性保障工具落地场景及成效 稳定性保障工具聚焦领域 可观测性建设:指标 实现涵盖业务、前端触点、应用、云平台、组件、基础资源的全层级指标数据采集及标准化,统一接入、存储、分析处理标准,提供可观测性能力数据基础。 可观测性建设:链路追踪 支持跨系统、跨云平台、跨数据中心链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追踪和方法清单级根因定位,接入应用6000+,日均处理600亿数据。 可观测性建设:日志分析 通过统一规范的日志采集、分布式存储能力、日志实时检索与异常检测能力,应对在分布式云化技术架构的演进背景下,剧增的集中系统日志数据量带来的挑战,解决在较大规模集中系统日志查询和报文查询方面效率低和不准的问题,提升故障和工单问题定位效率。 可观测性建设:一键故障诊断 在系统纵向全层级方面实现触点层、应用层、组件层、平台层、主机层、网络层纵向贯通,结合云化CMDB关联定位,建立故障传递模型,实现全层级一键诊断,端到端快速定位问题根因,当前覆盖16套核心系统。 触点+业务监控评估影响范围。 2.定位根因应用 利用图数据库关系在海量告警应用中快速定位根因服务,如150个服务告警根因应用缩小到5个左右。 3.定位根因实例 可观测性建设:一键故障诊断案例 当前一键故障诊断率达68%。 2022-08-XX XX:XXredis节点夯死,触发高可用,切换master,大量流量进入导致redis性能下降,上游应用大面积告警是故障根因 主机宕机事件导致lb异常:2022-08-XX XX:XX 2023-02-XX XX:XXoracle会话数突增导致应用连接超时增多是故障根因 2022-03-XX XX:XX交换机带宽使用率指标打满引起访问受限是故障根因 2023-02-XX XX:XX根因应用下游调用快立方告警异常是故障根因 lb所在主机宕机导致lb实例销毁重启服务波动是故障根因 GOPS全球运维大会2023·上海站 故障自愈 告警+故障诊断+自动化运维+应急能力,实现事件根因自动诊断,诊断结果结合故障知识树分析,自动完成应用实例查杀、重启、扩容、组件主备切换、流量限流、磁盘清理等多种故障自愈场景,月均自愈作业执行1000+次,自愈操作平均执行耗时3s内。 系统隐患预防 从容量隐患、链路隐患、系统健康度视角,定期开展隐患评估与预测,识别潜在风险隐患,隐患闭环治理,保障系统健康稳定和对资源利用的最优化。 容量问题优化 目标容量评估 全链路压测->容量标准达标、链路性能瓶颈评估...日常流量方法级分析->抖动、不达标率...指标实时监控->容量风险监控... GOPS全球运维大会2023·上海站 系统隐患预防:系统健康检查案例 自动获取全层级核心黄金指标,通过AI算法分析,优化层级实体健康度算法模型,进行全层级隐患分析,实现系统健康状态档案化管理,分析系统潜在问题,保障核心业务连续性。 稳定性测试:端到端全链路压测 增强调用链探针能力,使之具备流量染色与流量隔离能力,实现全链路读、写流量压测能力,有效评估业务容量水位,全链路节点性能瓶颈定位。 稳定性测试:全链路隐患分析 定位性能瓶颈节点,结合trace、实例、应用指标进行深度分析,得出优化结论。 GOPS全球运维大会2023·上海站 变更管理 生产运营流程线上化统一管理,实现统一线上化流程制定、申请、审批入口。 IaaS、PaaS、SaaS全层级变更轨迹追踪。 GOPS全球运维大会2023·上海站 故障闭环整改 故障管理实现故障事前、事中、事后全流程线上闭环管理,提升故障管理质量和效率,降低故障时长及次数,提升业务连续可用率。 03当前面临的挑战及未来展望 当前挑战 未来展望-安而不忘危,存而不忘亡,治而不忘乱 未来挑战 机遇 数字化高速发展、快速迭代为安全生产保障工具的适配性及泛化性带来了不小挑战;安全生产保障在未来的国际竞争中也会扮演至关重要的角色,关乎民生;国内开源软件产业仍面临着根本问题,国内开源软件供应链“卡脖子”事件频频发生,开源生态受制于人;大模型的发展对于数字化发展进程的冲击。 数字化道路的发展势必会提高系统安全生产保障的诉求;面对更复杂的系统,也会反向提升产品适配能力;拥抱开源的同时,也需要学习开源,自立自强,自主可控,突破开源;信创浪潮,可在未来带给产品更多的可能;大模型的发展,势必也会带来信息获取方式的变革,技术的变革、创造的变革。 开放运维联盟高效运维社区DevOps时代荣誉出品