您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站]:张春春-千万级商家服务保障场景下应急效能和体验提升实践 - 发现报告

张春春-千万级商家服务保障场景下应急效能和体验提升实践

报告封面

千万级商家服务保障场景下应急效能和体验提升实践 张春春支付宝高级监控架构师 张春春 支付宝(中国)网络技术有限公司高级监控架构师 2016开始,一直从事监控处置领域的技术研发和架构设计工作,2019年加入支付宝目前重点负责服务保障体系建设,包括影响面计算,降噪,找证据,路径复现,恢复计算等核心分析模块 01服 务 保 障 体 系 的 演 进 历 史 02服 务 保 障 体 系 架 构 03核 心 模 块 介 绍 04未 来 展 望 PART 01 服务保障体系的演进历史 服务保障体系的诞生背景 2014年首届支付宝线下双十二,火爆! 2012-2014年:线下支付拓展的痛! 好不容易拓展的商家,支付宝经常不能用了。常常不能用好几天才解决! 部分商家系统出现宕机。如果处理不好,会严重影响用户使用体验! 1.只保障支付宝系统稳定远远不够,商家不稳定用户照样不能用。2.广大商家的监控能力严重不足,大多没有资源投入。思考: 构建千万级商家服务保障体系!更好地支撑支付宝生态的良性发展。 规划: 服务保障体系的演进历史 •开始构建商家可用性监控体系•头部商户监控:固定阈值告警。50家重点商户。 解决:千差万别的数据形态下的异常识别 •智能算法:监控商户量扩大到千万级•业务覆盖:监控覆盖支付类、应用类几十个重点业务 •监控室:人工覆盖重大故障&重点商户。上线:影响面分析、恢复监控等。•云监控(质量监控中心):监控开放、异常自动化触达。覆盖全量商户。•自动化管控:监控联动市民中心、小程序等实现自动化管控 解决:在上千万的异常数据,上万的异常告警背景下,全方位构建处置能力。 •业务异动:支撑各行业,监控并联合解决由于业务原因导致不可用。•离线监控:上线离线监控平台(覆盖天级、小时级监控) •现象监控:建立基于异常现象监控的方法论和监控能力落地。•长期问题监控:建立长期不可用问题、用户级不可用问题的监控能力。增强了监控准确率技术、证据&复现等技术。•内部故障监控:监控能力整合复用到域内。 解决:监控告警无法识别大量用户体感不可用问题。 •服务保障策略运营中心:聚焦制定支付宝的生态服务问题处理策略,并确保所有问题得到最快发现与处置,进而最快速度解决和最小化用户影响。•大模型应用探索:通过大模型技术手段,构建保障域全业务生命周期智能体,助力业务发展。 解决:帮助商户更有效,更快速的排查解决问题 服务保障体系的现状 处置 监控 n定义400+处置策略n建设30+策略因子,如影响面,商户等级,问题类型等n1小时恢复率:60+% n建设400+监控规则n覆盖20+现象异常,如弹窗,白屏,错误页,卡顿等n监控发现率:85+% 告警案例-突发故障 告警案例-长期治理类问题 •问题特征:长期存在,通常为分支链路问题。•监控方式:离线监控为主;•处置策略:治理策略——问题池;•监控侧重:异常现象监控为主,技术异常为辅。•处置要求:复现、定位要求高。 PART 02 服务保障体系架构 整体架构 核心流程 监控方案-基于原因监控VS基于现象监控 问题:把所有核心链路都覆盖了,为什么还是有大量发现不了的Case? 优势:(1)告警和用户不可用现象直接挂钩,高准确率;(2)异常现象关键大类可以穷举。 思考:如果要监控全量异常是否意味着所有代码分支链路逻辑都要覆盖?监控发现率提升是否遇到了天花板? 破局:提出“基于现象监控”。 处置策略运营 处置:结合商户等级 服务保障策略运营 定义态 运行态 红色事件 事中:确保每一条策略执行到位 事前:确保每一类case都定义有效策略 一、发起应急组织 •专职团队:专职专班的运营团队&7X24小时值班响应•完备策略:确保每一个问题发生时,最快处理且井然有序•场景监控:面向场景的不同颗粒度的监控•商家档案:获取商家处理的关键人员信息•风险摸排•应急预案与演练 -运营同学发起钉群组织,并推进各角色各环节进展 黄色事件 二、故障处置 止血:第一时间执行应急止血预案同步:关键信息通报、汇总同步。确保问题发生分钟级内部各职能角色同步到位。包括但不限业务、公关、客资(如涉及);找人:最短时间找到最有效问题解决者,并周期性协同,确保问题被有效解决;内部(业务->负责人->管理层)、外部(技术->负责人->CXO)评估:根据最新用户影响,更新事件颜色等级 同步进行 事后 三、衍生风险评估与应对 •事件定责追责•改进action落地保证•长期优化跟进•反哺策略运营 -快速联动内部(合成作战、客权、PR等)、外部(网信办、公安等)等资源 (以上针对于严重影响的故障;对于非关键影响的故障,将按相应的策略执行,重点聚焦找到有效驱动者并周期性跟进) 复盘机制 核心模块介绍 影响面-背景 颜色事件定义 影响面 异常上升类案例 n从故障开始时间到当前时间或恢复时间,按uid精确去重计算UV 量级下跌类案例 降噪-背景 n学校放假导致商户交易下跌 n策略配置,产品化能力 n公交停运导致商户交易下跌 降噪 找证据-背景 n商户或者商户通过BD转达的问题排查信息诉求 n提供的视频证据 找证据 未来展望 监控方案-基于原因监控->基于现象监控->基于? 商户以及内部同学更多的诉求 n辅助排查信息提供 n日志分析 大模型应用探索 高效运维社区DevOps时代 荣誉出品 感谢大家观看