eBay智能运维任务演进总结
问题引入
eBay面临海量监控指标和传统规则引擎的局限性问题,旨在通过智能化告警方案提升异常发现和修复效率。业务指标和服务指标数据庞大,现有规则引擎难以设置合理规则且误报率高,因此需要升级异常检测模块。
算法挑战
- 多样的时序指标:不同业务和服务的指标多样性高
- 多变的检测需求:不同场景下检测需求差异大
- 难以采集标签:真实异常数据稀疏
单指标异常检测模型
阶段一:无监督模型
- 采用五类特征:点级特征(如局部异常)、季节性偏差、长期极端值、趋势变化、模式变化
- 分为点级特征和上下文级特征两类
阶段二:监督模型
- 模型选择:通过AutoML选择合适的时序异常检测算法
- 特征工程:结合业务特征(如job type、domain)和数据特征(如方差、偏度)
- 自动调参:优化预测分、形状分和问题率分的多目标函数
模型评估
采用Ticket level模型评估,通过精确率和召回率计算模型效果
多维指标异常检测
挑战
- 双胞怪胎:异常特征反复出现导致误判
- 小偏差:业务指标微小偏差被误识别为异常
- 数据误差:噪声数据影响检测效果
解决方案
- 采用Ymir、GDN、USAD等多维异常检测模型
- 引入ACVAE模型通过业务信息增强检测效果
- 模型基于反馈自动迭代优化
告警挖掘
背景
告警风暴时多个异常检测任务同时触发告警,需提升告警可行动性
解决方案
- 纵向挖掘:通过维度归因聚合指标及其各维度指标告警
- 横向挖掘:基于调用链挖掘告警根因
- 采用Aditributor、iDice等维度归因方案
跨国业务挑战
DST问题
- 冬/夏令时转换影响时序信号准确性
- 采用MEDIFF-ESD模型针对DST进行改进
多维异步时序检测
- 目标:多维周期性指标异常检测
- 解决方案:RANSynCoders模型通过同步信号重构和阈值边界重构实现异常检测
总结
eBay通过无监督到监督的模型演进、多维异常检测、告警挖掘和跨国业务优化,构建了完整的智能运维体系,显著提升了异常检测的准确性和可行动性。