您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[GOPS 全球运维大会]:全链路监控在嘉银科技的落地实践 - 发现报告

全链路监控在嘉银科技的落地实践

2024-10-16黄泳GOPS 全球运维大会胡***
AI智能总结
查看更多
全链路监控在嘉银科技的落地实践

黄泳 公司职位上海嘉银科技SRE负责人 全面负责嘉银科技的SRE部门工作 •主导嘉银科技的AIOPS全链路可观测•灰度发布CICD工具流程设计•CMDB&ITSM产品架构设计•智能运维平台开发建设 嘉 银 监 控 架 构 设 计 嘉 银 告 警 管 理 目录 嘉 银 智 能 可 观 测 实 践 未 来 展 望 嘉银监控架构设计 嘉银科技基础设施概览 Pod数量3000+ 嘉银复杂业务下的监控告警挑战 嘉银智能监控发展历程 大模型应用 海量告警数据管理 智能监控告警实践 l指标中心建设l多场景的智能巡检建设l故障自愈部分场景落地l引入知识库和故障诊断系统,根因分析并给出解决方案 基于VictoriaMetrics的Prometheus集群架构 Grafana 嘉银监控告警流程 嘉银统一监控告警平台建设 告警过多的问题怎么解? 联动CMDB识别告警资源 告警卡片示例 告警降噪流程设计 先知,先决,先行嘉银智能可观测实践 全面的数据决定智能化的起点 优质的数据决定智能化的高度 智能化可观测场景落地三板斧 先知——洞察之眼 分析数智化 AI通过性能指标和告警数据根据评价算法对业务健康度进行智能分析 智能巡检 趋势预测 通过运维专家经验预设的基线巡检项+GPT大模型对于巡检过程中收集的日志进行业务健康度360°评分,准确感知业务系统的健康状态 基于智能巡检结果,通过历史性能数据,使用大模型能力与算法库结合分析未来发展趋势,更好的利用资源以及提前对容量预警. 先知——挑战:没有放之四海而皆准的检测算法 适用于周期性强&周期固定不变的场景 适合数据偏正态/均匀分布的场景 •统计算法:k-sigma、箱线图、天/周同比、环比等•时序分析/解类算法:EWMA、STL、RobustSTL•预测类算法:Holt-winters、ARIMA、Prophet、LSTM等•机器学习分类算法:孤立森林、One-ClassSVM、各类有监督模型 –环比:对比值的变化率 当前值是否过大或者过小 –历史数据{𝑥'|𝑡=1...𝑛}–计算样本均值和样本标准差𝜇=(!)(")⋯)(#&,𝜎=#&"#∑$%#&(𝑥$−𝜇)+–异常检测𝑥!>𝜇+3𝜎or𝑥!<𝜇−3𝜎 •单点比较:𝑥!−𝑥!"#>threshold•多点比较:𝑐𝑜𝑢𝑛𝑡∑$%#&𝑥!−𝑥!"$>𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑>count_num –同比:对比同一个周期的值或多个周期的值 •突增:𝑥!>过去同一周期时刻的值*max_threshold•突降:𝑥!<过去同一周期时刻的值*min_threshold 先知——趋势预测案例 先知——智能巡检 先知——智能巡检系统案例 先决——挑战:如何快速实现根因分析? 云原生环境下,服务之间拓扑复杂,一个应用可能直接或间接地调用了几十上百个微服务需要快速、准确、低成本地定位根因 先决——根因分析定位常见方案 先决——故障根因分析流程 以嘉银内部的SRE Oncall相应处理故障过程为例,人工经验与自动化路线,双向赋能,既保证AI在落地过程中的安全性,也增强了AI辅助分析的准确性。 先决——故障根因分析案例 效果:实现了基于故障诊断引擎的根因分析 准确率:60%+ 适用场景:基于智能巡检,故障诊断平台,且监控观测数据接入完善的中低复杂度根因分析场景 先行——故障自愈流程设计 先行——故障自愈案例(自治+推荐) 自愈处理 未来展望 ChatOPS大模型探索 基于知识库文档,指标中心,故障诊断引擎,实现基于大模型的智能告警流程。 场景多元化 智能巡检,故障诊断规则,故障自愈规则多场景丰富,实现10+场景的提前预警,提前介入,提前处理的能力。 智能运维算法治理 运维场景算法支撑能力,运维算法服务能力,运维算法工程化能力。 感谢大家观看