您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023第十二届全球TOP100软件案例研究峰会]:联通研究院-吴天昊-“1-5-15”原则:数字化监控平台可观测稳定性保障实践 - 发现报告

联通研究院-吴天昊-“1-5-15”原则:数字化监控平台可观测稳定性保障实践

AI智能总结
查看更多
联通研究院-吴天昊-“1-5-15”原则:数字化监控平台可观测稳定性保障实践

“1-5-15”原则:中国联通数字化监控平台可观测稳定性保障实践 讲师简介 吴天昊中国联通软件研究院副总架构师 负责数字化生产运营保障体系建设与落地负责数字化监控平台整体架构设计及演进致力于完善“平台+应用”生态体系,打造联通集团自动化生产和智慧化运营的生产运营平台 01 数字化转型运维问题挑战 02 数字化监控平台整体架构 03 智能运维场景的应用实践 一、数字化转型运维问题挑战 问题痛点 故障如何快速抢通 故障如何快速发现 指标纷繁复杂看不全,看不清?各层级数据不互通共享,铁路警察各管一段?告警无人关注,处理缓慢? 需24小时运维值守,无法故障自愈及自动化?故障发现无法及时拉会,故障管理质量效率低下?无应急方案,应急操作时候全是问题? 故障如何优化预防 故障如何快速定位 系统调用关系复杂,故障排查困难? 故障反复出现,复盘改进没有效果?全链路性能瓶颈点和容量水位上线不知道?隐患无法察觉,没有提前治理优化? 云化架构下容器服务与主机关联关系不清? 只知道有问题,不知道问题出现在哪里,根因无法定位? 云原生下一些常见的典型故障 数字化转型运维面临的挑战 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业IT架构进入云原生时代,多云多集群部署已经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为继,如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。 分布式架构挑战 维护对象:系统节点、微服务数量几何级数增加调用关系:从简单对应到极其复杂,人力维护无法胜任数据分片、异地存储,传统维护模式难以为继 运维生态挑战 工具重复:工具按烟囱式建设,能力分散能力割裂:运维工具能力割裂不成体系数据孤岛:应用、数据库、中间件、云平台、基础设施各管自身 业务连续性挑战 故障处理过多依赖专家经验,系统服务间调用链路复杂,故障分析定位困难端到端的稳定性保障体系缺失,自动化、智能化故障应急处理能力不足故障处于被动防御、救火,没有提前预防手段,运维大数据未被合理价值挖掘 二、数字化监控平台整体架构 数字化监控平台功能架构 基于云原生下的生产运营支撑平台,以全局运营视角解读IT运维,提供端到端、全层级的运维工具支撑,依托大数据与人工智能技术,助力企业数字化业务高效、稳定运行,从传统运维向自动化生产、智慧化运营转变。 数字化监控平台技术架构 “平台+应用”体系——生产运营工作台 数字化监控平台的生产运营工作台采用“平台+应用”模式,借鉴苹果App Store仓库模式,构建“企业运维生态”,提供PC/移动多终端处理能力,入驻应用100+。 统一规划统一架构统一登录统一权限统一能力统一风格 三、智能运维场景的应用实践 智能运维核心场景 智能运维核心场景要做到端到端的故障发现、故障定位、故障调度、故障处置、故障整改、故障预防。 及时发现 全层级实时监控,1分钟故障发现 全链路深度追踪,5分钟故障根因定位 统一监控告警 统一全层级监控标准,纵向互联互通,打破分散割裂格局,实现全层级、全链路、端到端的性能监控和链路追踪。 智能监控告警平台 平台提供IaaS、PaaS、SaaS各层级监控能力,实现多层级运维数据互通,支持全流程可视化配置,多渠道告警通知,工单闭环管理,用户快速实现监控接入,为系统日常生产运行提供保障。 数据采集:采集组件管理、私有数据仓库接入、租户自定义采集监控配置:告警规则、收敛条件、告警内容静默管理:多维静默管理(全量、监控点、监控实例)告警通知:告警工单推送、电话催办告警处理:双终端工单处理、工单闭环管理告警大屏:系统监控告警全景图、告警工单处理进度 全流程调用链监控 通过探针非侵入式采集,实现调用链实时追踪、全层级故障根因定位。支持多租户、多系统接入、服务链路拓扑、多维根因定位分析、告警配置等功能。 实例/接口分析 服务趋势/报错异常 调用量、超时、异常黄金指标多指标自由组合 PaaS层组件、平台容器资源情况,IAAS层主机资源 跨系统分布式追踪 支持跨系统、跨云平台(CKE/CCS/EDAS)、跨数据中心(亦庄、西咸、廊坊、无锡)链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追踪和方法清单级根因定位,日均处理近千亿数据。 前端触点监控 采用JS埋点的方式,采集用户访问过程的性能指标,获取浏览器端的真实用户行为与体验数据。包括页面加载、点击、弹窗、JS报错、ajax等用户全轨迹跟踪,通过大数据分析,应用于院内故障定位、安全分析、终端分析、感知分析、异常分析等场景。 一键智能诊断 通过采集指标、链路、报文日志,实现三位一体的可观测性,在系统纵向全层级方面实现触点层、服务层、组件层、平台层、主机层、网络层纵向贯通,结合云化CMDB关联定位,实现全层级一键诊断,端到端快速定位问题根因。 4定位根因组件 1.发现业务影响 触点+业务监控评估影响范围。 2.定位根因服务1 5.定位根因主机 利用图数据库关系在海量告警服务中快速定位根因服务,如150个服务告警根因服务缩小到5个左右。 3.定位根因实例 通过核密度估计算法和DBSCAN聚类算法判定根因实例。 故障诊断 依托全层级监控指标数据、全层级链路调用、云原生CMDB,建立故障传递模型,以服务层为故障起点进行纵向串联,配以规则+AI的能力实现全层级一键智能故障诊断。 全层级指标数据 分布式链路拓扑数据全层级核心监控指标 云原生CMDB 服务、组件、主机、网络关系拓扑 以服务为起点纵向关联 云原生下以服务告警触发进行上下游关联 智能根因定位 服务异常实例波动平台组件指标异常主机异常宕机夯死网络设备带宽打满 lb所在主机宕机导致lb实例销毁重启服务波动 网络带宽使用率指标打满引起访问受限 智能故障自愈 将“监”、“管”、“控”工具能力融合,告警信息结合AI判定算法,触发自动化作业能力,实现故障自愈流程,有效缩短故障处理、恢复时间。 故障闭环管理 故障事前、事中、事后全流程线上闭环管理,提升故障管理质量和效率,降低故障时长及次数,提升业务连续可用率。 智能隐患分析 结合监控指标与容量指标,定期开展容量隐患评估,通过核心业务链路的全链路压测,分析链路性能瓶颈,建立健康度算法模型,识别与治理系统潜在风险隐患,保障系统健康稳定。 亚健康检查 自动获取全层级核心黄金指标,通过AI算法分析,优化健康度算法模型,进行全层级隐患分析,实现系统健康状态档案化管理,分析与治理潜在风险隐患,保障核心业务连续性。 性能对比系统性能对比页面可选取发版前后时间进行各指 周期性观测故障预防统计以日、周、月维度统计问题项 实时健康体检系统实时体检实时计算全层级指标,根据阈值 判断指标异常及风险程度 标性能对比,观测系统性能变化趋势 情况,观测系统阶段性运行情况 系统体检与性能对比报告,找出系统异常指标标注指标含义、可能引起故障、整改举措,助力系统整化,夯实稳定性 根据故障知识库与专家建议,选取页面、服务、组件、资源层核心黄金指标 成果实效 运营工具生态 政企市场突破 重大活动保障 核心系统稳定性 实现冬奥会、二十大、全国两会等国家重大活动保障任务万无一失,擦亮中国联通“重保首席”金字招牌 孵化商业产品对外输出,实现在政府、电网、汽车、白酒、教育等行业20项成果输出 打造中国联通生产运营保障工具生态,协同总部业务系统、省分二级研发共建共享,完成100+工具建设 大幅降低工具重复建设成本,年度节省人力200+,节省人工成本7200W 微 信 官 方 公 众 号 : 壹 佰 案 例关 注 查 看 更 多 年 度 实 践 案 例