您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站]:支付宝全生态可用性监控保障实践 - 唐亮 - 发现报告

支付宝全生态可用性监控保障实践 - 唐亮

AI智能总结
查看更多
支付宝全生态可用性监控保障实践 - 唐亮

姓名:唐亮 个人简介 唐 亮 支 付 宝高 级 解 决 方 案 架 构 师 现担任支付宝生态保障负责人在2014~2016年构建了支付宝售后技术支持体系在2016~2020年担任商业线业务监控保障负责人在2020~2024年担任支付宝生态保障负责人重点牵头项目包括大促活动生态保障项目、IoT售后维保项目、疫情期间的健康码保障等 支付宝全生态可用性监控保障背景与挑战 支付宝全生态可用性保障的体系 目录 支付宝全生态前置风险保障实践 支付宝全生态监控建设与实践 支付宝全生态可用性保障的诞生背景 线下支付的场景 小程序全面开放,生态类合作伙伴 出行&医疗,民生类合作伙伴 线下支付&大促,商家类合作伙伴 支付宝全生态可用性挑战 支付宝全生态可用性保障的体系 全生命周期的监控保障体系 支付宝全生态前置风险保障实践 商家大促活动前的保障最佳实践 商家大促活动前保障的最佳实践 基于历史数据,商家分层降成本 l商户服务端容量:服务端扩容l小程序端/投放端:小程序等限流 容量 监控 应急 风险 日常保障中稳定性风险识别 风险前置介入保障时机 支付宝全生态监控体系建设与实践 生态监控的两大核心 定义监控发现问题是监控能力提升的风向标广度与深度 体系化建设是支撑任何被新定义的监控长远发展与更多创新 定义监控发现的问题 基于原因维度的监控 原则:持续扩充异常原因,不断提升原因类的发现能力 业务的认可度提升: 1)用户视角问题,和业务强绑定,形成了业务战役。 2)因为战役且非常易理解业务能够有更多的监控维度的输入。 3)技术发现这些问题和业务关联度非常强,技术的积极度被大幅提升。 思考:如果监控了全量异常是否意味着所有问题和逻辑我们都已经覆盖了?监控发现率提升是否遇到了天花板? 破局:站在技术指标角度发现问题到站在用户角度发现问题。 监控体系化建设 商家监控技术 二、主动探测——巡检 一、基于异常痕迹监控——常用:埋点监控 •条件:有使用量&使用有异常•三个阶段:1.数据采集(对象刻画、对象数据采集)2.告警(数据+算法)3.监控大盘 其他:http巡检、基础资源巡检、接口巡检等 三、舆情监控 现象级监控案例-小程序白屏 完全无内容加载,纯色 •页面打开时检测是否有节点加载,无加载则判定白屏。 •用户退出时页面截图,使用Palette算法提取主色。主色百分比大于99%。 故障应急 业务线:公交地铁、航旅、商业支付、城市服务、餐饮、教育。。。。产品:小程序、服务、支付、一卡通、会员卡、直播、插件。。。。监控指标:接口、js接口、页面错误、异步通知、交易成功率。。。。 保障能力开放-给用户更好体验 基于场景的给用户提示 对于业务快速发展的角度,这套监控保障体系有较好的可复用性,能够快速支撑业务的多样性 监控保障体系让业务发展更好,让用户体验更好 T h a n k s 荣誉出品