登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
阿里云弹性计算智能化监控诊断的探索和实践-张尤
信息技术
2022-11-02
ArchSummit北京2022|全球架构师峰会
木子学长v3.5
概述与背景
业务难点
:阿里云基础设施规模庞大(200+可用区、3000+网络节点、25+数据中心、5000+集群、1,000,000+设备、100,000,000+部件),覆盖业务领域广(GN6v、GPU计算型、高性能数据库、大数据处理等)、技术难度深(子系统众多、链路长)。
客户诉求
:对诊断能力提出更高要求,包括异常感知、根因诊断、自愈方案推荐等,类比医疗诊断技术,追求简单直接、可感知、可控制、可预测的可用性判定。
ECS监控诊断发展历程
演进阶段
:从2010年ECS正式售卖至今,经历了硬件监控、组件监控、云上客户系统事件发布、全链路诊断平台上线、智能运维决策大脑上线等阶段,逐步从工具+人工向平台+半自动编排、数据化智能化发展。
三个挑战
:准确率和覆盖率的有机统一、诊断结果评价体系建设、规模效应下ECS监控诊断应用架构设计。
业界方案
传统监控时代
:以Zabbix、Nagios为代表,采用SNMP协议,拓扑自动分析、OneAgent通用采集、动态阈值告警等。
新监控标准+APM产品
:Prometheus、OpenTracing、OpenCensus等CNCF项目兴起,结合ZipKin/Jaeger等APM软件,以及阿里云自研的ARMSES APM、SLS AI分析能力等。
数据化/AIOps/可观测
:AzureMetric-Advisor、Moogsoft、DynaTrace等SaaS产品,强调可观测技术雷达(Metric、Log、Tracing、拓扑)。
我们的方案
ECS监控诊断架构设计
采集端
:EcsAlarmAgent节点采集SLS、ODPS数据,通过天基、底座Blink同步数据,监控调度、观测结果存储、配置管理、监控管理、监控打散等模块协同工作。
服务端
:采用图数据库、TDDL、MySQL、Redis等存储特征,通过规则引擎、知识图谱、随机游走节点选取、历史特征关联度分析等实现异常感知和根因诊断。
ECS异常根因诊断解决方案
准确性
:解决故障时刻异常多、传统决策树根因无可解释性问题。
可解释性
:通过异常计算特征、规则、知识图谱构建、FP-Tree频繁项集置信率/提升度、人工修正反馈、日志聚类等实现。
方案流程
:异常计算特征 -> 异常感知模块 -> 规则 -> 优先级模型初筛 -> 覆盖度/置信率 -> 根因随机游走 -> 离线关联度存储 -> 图数据库模型更新。
ECS智能运维决策系统
概览
:结合规则引擎、事件触发器、A/B Test、多维度流控、历史回溯、DryRun机制等,通过分析引擎、工作流、执行引擎实现白屏化工作流编排。
面临问题
:单一维度判定执行运维风险高、异常恢复手段单一、流控维度单一、规则变更无法回溯历史。
DryRun机制
:实时命中分析、规则命中回溯对比、每日异常特征分布分析等。
ECS智能运维决策系统评价体系
理论基础
:有效性问题 -> 运维动作&模型正向效果评价 -> ECS核心指标(KeyMetric)计算 -> 假设检验算法(单因素方差分析F检验、功效分析)。
工程落地
:对照组选取(HashRing)、A/B Test上线流程、总体工程落地方案(数据面性能维度、控制面、数据源整合、灰度发布)。
评价指标
:VM总活跃时长、异常严重程度系数、主动通知后计算系数加权、显著性差异检验、精准控制切流比例。
你可能感兴趣
阿里云大数据计算平台基于 AIOps 的根因定位实践-张颖莹
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06
阿里云弹性计算稳定性建设和云上运维最佳实践-李刚
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06
阿里云超大规模弹性计算节点自动化运维稳定性实践-唐磊-公开版
商贸零售
ArchSummit杭州2022|全球架构师峰会
2022-11-02
阿里云SelectDB在巨益科技电商中台的实践和探索
商贸零售
巨益科技
2024-04-25
3 阿里云-StarRocks+Paimon在阿里集团LakeHouse的探索与实践
商贸零售
StarRocks 2024 年度技术峰会
2024-12-17