登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
中央经济工作会议
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
阿里云弹性计算智能化监控诊断的探索和实践-张尤
信息技术
2022-11-02
ArchSummit北京2022|全球架构师峰会
木***
AI智能总结
查看更多
概述与背景
业务难点
:阿里云基础设施规模庞大(200+可用区、3000+网络节点、25+数据中心、5000+集群、1,000,000+设备、100,000,000+部件),覆盖业务领域广(GN6v、GPU计算型、高性能数据库、大数据处理等)、技术难度深(子系统众多、链路长)。
客户诉求
:对诊断能力提出更高要求,包括异常感知、根因诊断、自愈方案推荐等,类比医疗诊断技术,追求简单直接、可感知、可控制、可预测的可用性判定。
ECS监控诊断发展历程
演进阶段
:从2010年ECS正式售卖至今,经历了硬件监控、组件监控、云上客户系统事件发布、全链路诊断平台上线、智能运维决策大脑上线等阶段,逐步从工具+人工向平台+半自动编排、数据化智能化发展。
三个挑战
:准确率和覆盖率的有机统一、诊断结果评价体系建设、规模效应下ECS监控诊断应用架构设计。
业界方案
传统监控时代
:以Zabbix、Nagios为代表,采用SNMP协议,拓扑自动分析、OneAgent通用采集、动态阈值告警等。
新监控标准+APM产品
:Prometheus、OpenTracing、OpenCensus等CNCF项目兴起,结合ZipKin/Jaeger等APM软件,以及阿里云自研的ARMSES APM、SLS AI分析能力等。
数据化/AIOps/可观测
:AzureMetric-Advisor、Moogsoft、DynaTrace等SaaS产品,强调可观测技术雷达(Metric、Log、Tracing、拓扑)。
我们的方案
ECS监控诊断架构设计
采集端
:EcsAlarmAgent节点采集SLS、ODPS数据,通过天基、底座Blink同步数据,监控调度、观测结果存储、配置管理、监控管理、监控打散等模块协同工作。
服务端
:采用图数据库、TDDL、MySQL、Redis等存储特征,通过规则引擎、知识图谱、随机游走节点选取、历史特征关联度分析等实现异常感知和根因诊断。
ECS异常根因诊断解决方案
准确性
:解决故障时刻异常多、传统决策树根因无可解释性问题。
可解释性
:通过异常计算特征、规则、知识图谱构建、FP-Tree频繁项集置信率/提升度、人工修正反馈、日志聚类等实现。
方案流程
:异常计算特征 -> 异常感知模块 -> 规则 -> 优先级模型初筛 -> 覆盖度/置信率 -> 根因随机游走 -> 离线关联度存储 -> 图数据库模型更新。
ECS智能运维决策系统
概览
:结合规则引擎、事件触发器、A/B Test、多维度流控、历史回溯、DryRun机制等,通过分析引擎、工作流、执行引擎实现白屏化工作流编排。
面临问题
:单一维度判定执行运维风险高、异常恢复手段单一、流控维度单一、规则变更无法回溯历史。
DryRun机制
:实时命中分析、规则命中回溯对比、每日异常特征分布分析等。
ECS智能运维决策系统评价体系
理论基础
:有效性问题 -> 运维动作&模型正向效果评价 -> ECS核心指标(KeyMetric)计算 -> 假设检验算法(单因素方差分析F检验、功效分析)。
工程落地
:对照组选取(HashRing)、A/B Test上线流程、总体工程落地方案(数据面性能维度、控制面、数据源整合、灰度发布)。
评价指标
:VM总活跃时长、异常严重程度系数、主动通知后计算系数加权、显著性差异检验、精准控制切流比例。
你可能感兴趣
阿里云大数据计算平台基于 AIOps 的根因定位实践-张颖莹
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
阿里云弹性计算稳定性建设和云上运维最佳实践-李刚
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
阿里云超大规模弹性计算节点自动化运维稳定性实践-唐磊-公开版
信息技术
ArchSummit杭州2022|全球架构师峰会
2022-11-02
阿里云SelectDB在巨益科技电商中台的实践和探索
信息技术
巨益科技
2024-04-25
3 阿里云-StarRocks+Paimon在阿里集团LakeHouse的探索与实践
信息技术
StarRocks 2024 年度技术峰会
2024-12-17