AI智能总结
网易云音乐/宋东辉 网易云音乐/宋东辉 资深测试开发工程师 浙江大学硕士毕业之后,加入支付宝,参与蚂蚁端稳定性Sapienz 项目建设,数字内容治理项目核心成员,双12大促主要质量负责人之一。2021年加入网易云音乐,负责云音乐大数据质量和效能建设, 发起并牵头多方共建DataOps项目和智能监控项目。 1、 背景简介2、方案介绍3、落地效果4、未来展望 目 录 Contents 1、背景简介 1.1、云音乐大数据治理现状 大数据生产侧治理的难点 2、方案介绍 2.1、智能监控选型 大数据异动感知 统计算法:绝对值,相对值,周期检测,假设检验分类模型:K-means、SVM等预测模型:LSTM、ptophet等 指标数据 指标均值和方差� 单点环比 异动分类 K-sigma检测动态阈值 K-means K-means获取簇中心� 大数据异动感知 统计算法:绝对值,相对值,周期检测,假设检验分类模型:K-means、SVM等预测模型:LSTM、prophet等 大数据异动归因 分类算法:GBDT 统计算法:贝叶斯算法 表达式: 贝叶斯表达式:� �|� = � �|� * � � /� � B表示目标任务告警,A表示上游任务A告警根据样本数据表.1,得到p(B),p(A*),p(B/A*)的统计概率。 Y(x)= �=1���(x)x为特征,Y为分类结果见样本数据表.1,y为人工打标标签 2.2、智能监控方案落地 大数据智能监控平台化 基础数据 大数据智能监控旁路验证 大数据智能监控旁路验证 优点:预测结果准确,缺点:依赖标签数据,不适合冷启,容易过拟合 优点:训练容易,对噪点不敏感,预测结果准确,不依赖标签数据缺点:适合长周期,不适合冷启问题:无规律、无周期的数据预测不准确 优点:简单,不依赖标签数据缺点:噪点敏感,不适合冷启 大数据智能监控异动归因 假设:1)指标告警只有本身、上游+1指标引起2)同层指标间无相互依赖 3)埋点等上游正确(这同样是一个大的命题:略) 贝叶斯公式: 示例:表B某指标监控规则告警,上游表 A1、A2和A3需要统计的指标: 1)表B最近一周告警的概率示例:p(B)=2/72)表Ai最近一个月告警的概率 示例:p(Bi) =13/30 数据清洗:Ai没有监控,首先取 max(p(Ai)),其次取p(A)3)预估p(B|Ai) 辅助分析--字段级别归因示例:2023-11-01 09:08,表B.字段b1告警,上游表A1.字段a1异常关联度0.3(告警),上游表A2.字段a1异常关联度0.1(未告警),上游表A3.字段a3异常关联度0.05(告警) 3、落地效果 大数据智能监控落地效果 业务10+业务接入千级别核心表覆盖 大数据智能监控落地效果 4、未来展望 未来展望 FOR DATA 平台侧 生产侧 监控指标设计:极具挑战 监控归因分析:跨平台血缘依赖、根因分析依然是难点 研发层(提效):自然语言创建自定义函数,text2SQL工程化落地储存层(降本):根据使用场景+频率,智能决定存储类型调度层(保稳):根据重要度+算力+数据量+历史时长,智能决定调度批次 智能监控模型:冷启,样本量少,过拟合,仍然是难点 未来展望 未来展望 致谢