个人简介 宋 璐 去哪儿网机票事业部/QA团队高级测试工程师 价值分析 异常检测-雷达平台 目录 归因分析平台 未来展望 价值分析 价 值 分 析 : 质 量 保 障 有 效 性—衡 量 标 准 价 值 分 析 :故 障 主 动 发 现 率—数 据 分 析 故障主动发现率:38%。目标优化有监控无报警故障的发现方式,来提升故障主动发现率。 价 值 分 析 :故 障 处 理 超 时 率—数 据 分 析 故障处理超时率:51%。目标优化由于信息差,信息多、难决策导致的故障超时。 价 值 分 析 :智 能 运 维 手 段—A I O P S AIOPS智能运维体系,根据可观测MTL(Metric+Trace+Log)三要素进行分析和建模。覆盖故障发现,根因定位,故障自愈全流程。 异常检测-雷达平台 雷 达 平 台-提 高 故 障 主 动 发 现 后 续 计 划 落 地 效 果 实 现 路 径 雷 达 平 台-落 地 效 果 雷 达 平 台-需 要 具 备 的 能 力 数据源:支持30w业务指标的拉取 数据存储模块: •支持指标实时分析•指标特征值存储•测试数据集持久化,验证模型有效性•报警数据持久化,用于数据分析 雷 达 平 台-特 征 值 计 算 模 块 思路:深度挖掘曲线本身的特征,并将特征值关联到后续分析模块中,做更精细的指标分类和处理 13个特征值:平滑后方差、标准差、期望、周期、max、min、avg、离散性、抖动性、密度标准差、密度均值等 雷 达 平 台-指 标 分 析 指标分析 Ø业务特性:影响报警规则的敏感度 •量:成功、失败、count等 •率:成功率、失败率 雷 达 平 台-指 标 分 类 模 块 思路:将波形和业务特性结合,对指标进行分类 雷 达 平 台-异 常 检 测 模 块 思路:搭建测试数据集,量化模型准确率。 watcher平台上的指标数据超过一个月后会被聚合,会影响到验证的准确性,指标数据进行了持久化处理。 根据指标的业务分类,数字化初始准确率数据,后续优化可量化,可度量。 测试集的好坏直接影响最终的实验效果: 分析全量测试集数据,归纳波形,分析可提升机会点 1)故障测试集:302)核心报警测试集:214覆盖机票10个四级部门;全量P1/P2的有效报警 雷 达 平 台-异 常 检 测 模 块 思路:分析小流量问题的难点,归纳小流量常见的问题波形,针对性解决。测试验证数据集->离散波形异常检测算法->连续波形异常检测算法->陡增/陡降波形检测算法 解决思路——异常密度校验算法 第一步:计算指标7天历史数据的密度标准差(densitySTD),衡量指标的离散程度;密度平均值(densityAVG),衡量指标的密集程度; eg:densitySTD:0.16;连续直线,国内机票搜索成功率的std:0.007;densityAVG:0.14;连续直线,国内机票搜索成功率的avg:0.99; 效果:雷达增量发现的线上问题中,65%是小流量问题,平均发现时长15min; 雷 达 平 台-异 常 检 测 模 块 测试验证数据集->离散波形异常检测算法->连续波形异常检测算法->陡增/陡降波形检测算法思路:针对业界常用连续波形异常检测算法实验,最终选择了4种数据预处理方式+2种异常检测算法。 雷 达 平 台-异 常 检 测 模 块 思路:针对已选算法,搭建自动调参系统,找到算法的最优参数。 测试验证数据集->离散波形异常检测算法->连续波形异常检测算法->陡增/陡降波形检测算法 雷 达 平 台-异 常 检 测 模 块 测试验证数据集->离散波形异常检测算法->连续波形异常检测算法->陡增/陡降波形检测算法思路:增加整体模型的覆盖度,连续波形异常校验,需要一定的持续时间,对于短时间暴涨/暴降的指标进行兜底。 解决思路——陡降算法 第一步:先根据指标业务类型,选择是判断上升还是下降 eg:success/rate_success只关心下降; 第二步:判断指标是否连续, •如果连续观测下降趋势,波形陡降模型•如果离散,走密度下降模型 第三步:波形陡降模型,连续取同比N分钟的,7天平均qps,找出7天内最低的qps 第四步:根据测试集,问题期间qps的下降幅度,配置测试梯度参数 第五步:根据参数计算阈值,判断异常点 雷 达 平 台-常 态 化 运 维 效 果 思路:建立运营流程,持续运营 雷达报警处理 雷 达 平 台-常 态 化 运 维 效 果 雷达准确率均值87%,ivr报警接听率均值:75% 雷 达 平 台-后 续 计 划 思路:30w指标95%默认报警优先级,平均报警时间10min,引入大模型做更精确的指标分类(优化中) •结合appcode优先级•异常指标优先级•雷达报警反馈数据•进行更精确的指标分类 归因分析平台 归 因 分 析 平 台-降 低 故 障 处 理 时 长 目录 模型构建 后 续 计 划 难 点 分 析 模 型 构 建-问 题 拆 解 2 3 4 模 型 构 建-行 业 现 状 根因分析处于探索阶段,业界没有标准的解决方式。常见思路:根据可观测MTL(Metric+Trace+Log)三要素进行分析和建模。 模 型 构 建-模 型 构 建 思路:结合开发定位故障的思考路径分析,定位范围→异常断言→关联挖掘→剪枝排序→结果输出 难 点 分 析 根因分析难点:干扰多、定位难 •指标:100+ •qtrace:万级 难 点 分 析-干 扰 多 思路:找到每一层的问题,逐层降级 问题:误报、闪报、阈值配置不合理等 •人工治理 •自动识别无效告警、不做分析(按周、天维度缓存无效告警) 问题:复合指标中有些指标对结果无影响 •函数中去除无影响的指标,e.g: asPercent只保留分子指标、exclude去除排除的指标等 问题:分析的trace包含非核心链路•根据业务优先级:业务线自定义,T值、核心链路 难 点 分 析-定 位 难 思路:分情况处理,根据情况针对性解决。 有异常:建立权重体系,定位topN的根因; •拓扑appCode总权重=trace异常权重x空间权重x(事件权重+中间件权重+单机权重+异常日志权重) 无异常:扩大分析范围,再进行权重判断 •扩大分析范围 •支持全链路事件变更•向下探测放开层级限制•向上支持qps异常探测 •权重判断 效果(优化中) 未来展望 04 后 续 计 划 思路:利用大模型能力做更精准的根因定位。 T h a n k s 荣誉出品