AI智能总结
张涛高级监控架构师 个人介绍 张涛支付宝高级监控架构师 •毕业于浙大计算机系硕士,08年加入支付宝至今。从事产品开发&架构师7年,后从事监控技术9年。•从05年开始牵头从零构建了支付宝商家可用性监控体系。•当前负责支付宝外部商家可用性监控技术负责人。 支付宝商家可用性监控体系演进历史1 目录 商家可用性监控的整体框架2 CONTENTS 重点板块介绍—监控告警3 未来展望 4 01支付宝商家可用性监控演进历史 商家可用性监控的诞生背景 2014年首届支付宝线下双十二,火爆! 2012-2014年:线下支付拓展的痛! 好不容易拓展的商家,支付宝经常不能用了。常常不能用好几天才解决! 部分商家系统出现宕机。如果处理不好,容易引发社会舆情! 1.只保障支付宝系统稳定远远不够,商家不稳定用户照样不能用。2.广大商家的监控能力严重不足,大多没有资源投入。思考: 构建千万级商家可用性监控体系!更好地支撑支付宝生态的良性发展。 规划: G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 商家可用性监控——探索&发展的历史 •监控室:人工覆盖重大故障&重点商户。上线:影响面分析、恢复监控等。•云监控(质量监控中心):监控开放、异常自动化触达。覆盖全量商户。•自动化管控:监控联动市民中心、小程序等实现自动化管控 解决:在上千万的异常数据,上万的异常告警背景下,处置优先级&处置策略问题。 •现象监控:建立基于异常现象监控的方法论和监控能力落地。•长期问题监控:建立长期不可用问题、用户级不可用问题的监控能力。增强了监控准确率技术、证据&复现等技术。•内部故障监控:监控能力整合复用到域内。 解决:监控告警无法识别大量用户体感不可用问题。 商家可用性监控的现状 •监控覆盖支付宝99%的商家业务。涵盖:线下支付、线上支付、政企、民生、数字生活等。•监控发现率达到了85%(即:召回率)•沉淀了大量监控技术涵盖:风险监控、多种实时/离线监控技术、巡检、恢复计算、影响面分析、监控准确率技术、定位、复现、自动化管控技术等等。 告警案例-突发故障 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 告警案例2-长期类问题 •问题特征:长期存在,通常为分支链路问题。•监控方式:离线监控为主;•处置策略:治理策略——问题池;•监控侧重:异常现象监控为主,技术异常为辅。•处置要求:复现、定位要求高。 产品案例-质量监控中心&自动化管控 02商家可用性监控的整体框架 商家可用性监控体系-运行全流程 商家可用性监控-核心技术模块 03重点板块—监控告警 监控技术——三大类 二、主动探测——巡检 一、基于异常痕迹监控——常用:埋点监控 •条件:有使用量&使用有异常•三个阶段:1.数据采集(对象刻画、对象数据采集)2.大盘3.告警(数据+算法) 其他:http巡检、基础资源巡检、接口巡检等 三、舆情监控 监控技术——基于原因监控VS基于现象监控 问题:把所有核心链路都覆盖了,为什么还是有大量发现不了的Case? 优势:(1)告警和用户不可用现象直接挂钩,高准确率;(2)异常现象关键大类可以穷举。 思考:如果要监控全量异常是否意味着所有代码分支链路逻辑都要覆盖?监控发现率提升是否遇到了天花板? 破局:提出“基于现象监控”。 基于现象监控案例-白屏 基于现象监控案例-异常弹窗 不同故障类型的不同监控技术 问题背景:从用户视角,发现发现率总是提不上去,只有28%。 分析:用户反馈的问题90%都不是大面积故障。 方案:提出长期性问题监控、用户级问题监控技术。 突发故障监控 长期性问题监控 •方案:分钟/秒级商家数据波动•侧重:核心指标实时异动。 •方案:用户颗粒度聚合数据+阻碍性用户行为识别。 •方案:商家颗粒度聚合数据 •方案:长期阻碍用户使用的异常T+1分析,并告警。•侧重:异常现象监控&持续时间(准确率高)。 •问题:少数用户不能用无法监控。 •例子:N个用户反复操作5次都报错,最终未操作成功。 监控准确率&降噪 解决的核心问题 效果数据 一.值班室体感 监控室体感监控准确率从24.1%提升至70.6%。告警削减了66%。 (告警/工单发出去之前) 通过误告识别,故障或非故障识别,减少值班室人工工作量 •降噪-共性问题•规则治理-特性问题 二.商户体感 (告警/工单发出去之后)通过原因识别,解决值班室无法快速准确识别的异常事件•基于原因自动建单•基于原因自动触达 G O P S全 球 运 维 大 会2 0 2 2 ·上 海 站 影响面分析、恢复计算、故障等级 原理 •影响面分析原理: (1)当前数据和基线对比区域面积;(2)错误总量;(3)其他。 •恢复判断原理: (1)当前数据和基线对比;(2)和异常前数据量对比;(3)其他。注意:需要引入观察期,否则可能会误判。 故障定级和影响面的重要性:从成百上千的异常中将关注点投入到重大异常事件。 应用:监控室只跟进处理X等级故障,其他自动派发。 G O P S全 球 运 维 大 会2 0 2 2 ·上 海 站 回顾——商家可用性监控体系运行全流程 04展望 展望 未来生态监控愿景 和愿景的差距 现状:依赖专家经验。虽然融入了大量算法,但算法也是专家经验的一定的延伸。 问题:为什么很多问题人一看就可以识别,机器却做不到? 未来:真正的AI监控 思考:所有的行业都值得用大模型重做一遍! 利用多模态大模型对数据做内容理解,做到对更多未知现象、未知异常的识别。 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 开放运维联盟高效运维社区DevOps时代 荣誉出品