AI智能总结
李赛算法专家 个人介绍 李赛携程算法专家 主要负责建设携程AIOps技术体系,包括智能告警、智能变更、容量治理、应用治理、根因定位等场景下的AIOps探索与实践,在人工智能技术结合运维场景方面有深入研究 1 目录 2 智 能 告 警 系 统 CONTENTS 3 智 能 变 更 容 量&服 务 治理 4 后 续 规 划 5 01背景 运维迭代过程 人是主要劳动力标准化程度低效率很低知识难以沉淀稳定性依赖强流程 逻辑比较简单脚本适用范围有限效率较低稳定性依赖强流程 标准化程度高 数据驱动运维 效率较高数据多,但熵减大知识有沉淀稳定性依赖工具\人\流程 •预测•发现•分析•画像 知识复用性高 传统运维 自动化运维 智能运维 脚本运维 AIOPS的三要素 数据是智能运维的基础,始终围绕着用活的数据、把数据用活 算法能力和平台能力,AIOPS价值的发挥和度量需要平台能力的支撑 场景驱动,以痛点、价值期望切入点,用智能赋能运维场景,落地智能运维能力 数据底座 能力支撑 平台能力 场景 故障与异常 容量与成本 •根据历史数据进行预测,提供辅助决策数据•容量规划、资源优化、成本优化 •更早发现问题、更快定位问题•异常检测、智能变更、故障定位 服务治理 智能问答 •利用数据、机器学习与运维管理知识,降低日常治理复杂度•超时治理、核心服务SLO治理 •提高知识复用率,减少人力成本•知识库、告警处理方法推荐 运维大脑 02智能告警系统 业务监控告警痛点 1.数据源配置复杂,重复性劳动 2.规则告警配置不灵活,维护成本高 3.新配置数据源需要补历史数据 添加详细文本描述此处添加4.告警重复 文本描述5.规则告警容易漏告和误告 携程智能告警整体架构 智能异常检测算法 智能异常检测算法 异常程度衡量: 告警配置 •数据源采集一次,通过降采样进行多颗粒度监控点维护,避免补数据操作,降低冗余 •秒级粒度告警,助力提升一分钟发现 •降采样颗粒度告警,助力召回率提升 检测方案选择 数据实时检测过程 智能告警模型加载流程 •模型动态加载,避免重启操作•均匀加载模型,避免数据倾斜HDFS 智能告警检测流程图 告警状态机 智能告警示意图 携程智能告警效果 03智能变更 变更痛点 •变更是稳定性杀手,70%故障由变更引起。 •监控看板多,观测费力度大•阈值设置不准确,误告容易影响变更效率•漏告容易导致故障•开发、测试无法完全避免故障 变更流程 •分批发布,保证可用性•应对方案:切流,回退,拉入拉出 携程智能变更整体架构 智能变更流程设计 拦截范围 •代码发布•配置修改•其他变更配置 检测指标 •当前变更应用New Error、错误数、请求量、响应时间、NPE、GC•上下游应用错误数、请求量、响应时间•第三方指标监听 智能变更工程与算法流程图 发布刹车展示 如何提高检测算法准确性 •符号检验•结合历史数据,避免局部异常导致的误告•识别突刺点 符号检验 •应用进行发布变更后,出现了错误数的上升,且满足了显著性水平,此时局部数据被诊断为异常。 通过拟合历史数据,减少误告 •通过滤波识别出历史数据中的高频部分即异常数据,刨除掉异常数据。 •对刨除掉异常点之后的历史数据进行拟合。 通过拟合历史数据,减少误告 •通过基线拟合出上下限区间。•局部异常点在上下限区间内,因此可以认为是正常波动,减少局部数据所认为的异常。 精确识别突刺点 •应用发布变更后出现了响应时间的持续上升。 •通过对该应用下单台机器的分析,发现是由于各个机器的突刺叠加所造成的。 •通过对机器维度上的突刺识别,避免误告。 携程智能变更效果 04容量&服务治理 容量管理 简单容量评估测试环境压测人工扩缩容传统容量管理容量模型建设全链路压测工具批量扩缩容容量工具建设容量纳管FINOPS全面容量管理010203 容量管理 服务治理 将服务治理规范结合算法进行自动化巡检,主动识别不规范、不合理的风险项,并给出配置合理值推荐和修改建议,并提供集中化的配置中心或运维工具进行配置项修正和风险项整改,提高稳定性同时降低人工管理复杂度。 •超时治理•慢启动治理•限流治理•HPA稳定性治理 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 05后续规划 智能容量调度 无人值守变更 故障定位 依赖于相关AIOPS算法,提升故障定位效率(如将5分钟定位故障的效率从当前的50%提升到80%左右),进而提升故障恢复速度,助力1-5-10提升, 借助于智能变更来进行无人值守的全自动应用发布与故障演练,通过算法及时识别到变更过程中的异常情况,自动介入处理,兼顾质量与效率。 通过算法及时发现容量瓶颈,精细调度资源,提升资源利用率,更好的控制成本。 开放运维联盟高效运维社区DevOps时代 荣誉出品




