登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
阿里云超大规模弹性计算节点自动化运维稳定性实践-唐磊-公开版
信息技术
2022-11-02
ArchSummit杭州2022|全球架构师峰会
我不是奥特曼
概述与背景
客户诉求
:实现无人值守、可控制、可感知的稳定可靠运维,包括稳定性SLA、性能SLA、异常感知(监控告警、根因诊断)、可控制(原子操作、自动化)和智能自愈(智能编排、预测自愈)。
业务难点
:基础设施规模庞大(2000+可用区、3000+网络节点、5000+集群等),产品形态多样(GPU计算、高性能计算、内存型等),监控诊断运维手段差异大,技术难度深(CPU子系统复杂等)。
业界方案与发展趋势
传统监控时代
:Cacti、Nagios等工具为主。
新监控标准+APM产品
:Prometheus、Zabbix、OpenTracing等兴起,数据化/AIOps/可观测性成为趋势。
发展趋势
:CNCF可观测技术雷达、Metric-Advisor、AIOps等百家齐放,强调拓扑自动分析、OneAgent、动态阈值告警、影响面分析等。
我们的方案
发展历程
:从ECS正式售卖到监控上线、落日弓发布、编排底层应用接入、天基&监控接入、XFlush IDC硬件监控上线、Alimonitor计划运维、ECS全链路诊断平台上线、Cloudops运维平台发布、自动化运维决策大脑上线等。
整体架构
:包含数据处理(ODPS、BLINK)、日志服务、MNS、TDDL、SchedulerX等可靠底座,以及监控采集、调度器、数据回流存储、运维策略定义、运维评价、业务流控等模块。
监控数据采集
:采用轻量化调度器、采集间数据共享、SLS与Blink实时同步,实现高规模节点采集和高采集回流,覆盖率99.9%,P95 CPU利用率±3%,采集数据100T/D。
运维策略相关定义
:包括监控异常、特征定义、运维规则、运维动作等。
运维评价
:基于理论模型(性能度量、不可用度量、控制面度量)和工程落地方案(MaxCompute离线异常特征、Spark算法特征分类、方差/功效分析等),通过A/B Test灰度切流比例建议,解决过度运维问题。
业务流控
:提供丰富的流控维度和灵活的流控规则,支撑百万级资源发布。
灰度发布
:支撑百万级资源发布、数百发布业务方、n亿变更次数、n万发布次数,通过hash分组降低亲和性,实现8421等发布节奏。
熔断能力
:发布过程中通过诊断识别异常或隐患,主动阻断发布,提升发布稳定性,XX期间有效熔断近百次,召回率98%。
总结
核心观点
:通过全链路监控、自动化运维策略、运维评价体系、业务流控、灰度发布和熔断机制,实现大规模弹性计算节点的稳定可靠运维。
关键数据
:99.9%覆盖率、P95 CPU利用率±3%、100T/D采集数据、近百次有效熔断、98%召回率。
研究结论
:自动化运维和智能化决策是提升大规模弹性计算节点稳定性的关键,通过数据化分析和A/B Test等方法可有效避免过度运维和发布风险。
你可能感兴趣
阿里云弹性计算稳定性建设和云上运维最佳实践-李刚
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06
阿里云弹性计算服务集群 ( 包含 204 个 OceanBase 数据节点 )
商贸零售
蚂蚁金服
2019-10-02
阿里云弹性计算智能化监控诊断的探索和实践-张尤
商贸零售
ArchSummit北京2022|全球架构师峰会
2022-11-02
曹立江-中国联通超大规模 IT 系统下稳定性保障能力落地实践
商贸零售
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站
2024-07-17
2-5 代晓磊-知乎数据库稳定性建设实践
商贸零售
2023 Gdevops全球敏捷运维峰会
2023-08-04