阿里云弹性计算稳定性建设和云上运维最佳实践
阿里云弹性计算概念
阿里云弹性计算(又名云服务器ECS)是云计算最核心的基础IaaS服务之一,旨在让用户像使用水电一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。
阿里云弹性计算稳定性建设实践
稳定性诉求与挑战
- 百万级外部客户:阿里云需满足百万级客户的稳定性需求。
- 全面上云依赖:2019年阿里全面上云对弹性计算稳定性提出强依赖。
- 业务场景差异:在线业务场景(如AI大模型、游戏创业期)对稳定性要求更高。
- 目标:用x86硬件提供小型机级别的稳定性,目标提升10倍。
- 挑战:系统复杂度高,规模庞大,涉及基础设施、服务器硬件、底层软件等多个层面。
问题识别与量化
- 宕机:ECS资源100%不可用,导致业务中断,数据丢失。
- 夯机:ECS资源服务不稳定,核心功能不可用,难以恢复。
- 抖动:ECS资源核心服务出现网络或性能抖动,影响敏感用户,可能导致业务中断。
- 量化指标:客户体感可用率、稳定性客诉率、实例宕机/夯机率、主动运维率等。
解决方案:弹性计算稳定性系统工程
- 线下预防体系:涵盖产品设计、适配、验收等阶段,包括硬件准入标准、稳定性准入标准、业务适配等。
- 线上守护体系:
- 智能故障预测:通过机器学习算法预测可预期和非预期宕机。
- 灰度发布能力:通过变更平台和熔断机制降低变更风险。
- 监控诊断能力:多维度监控和诊断服务,定位根因。
- 异常调度能力:自动调度异常实例,保障业务连续性。
- 故障快恢能力:通过故障预案和SOP快速恢复系统。
- 客户侧联动体系:通过系统事件通知和OpenAPI等工具,与客户协同处理问题。
- 稳定性重保体系:针对不同重保等级提供研发、服务和资源支持。
阿里云弹性计算云上运维最佳实践
最佳实践概览
- 问题规避:通过响应ECS系统事件,优雅规避实例运行风险。
- 问题容错:通过HA能力提升应用容错和容灾能力。
- 问题诊断:通过实例健康诊断能力快速定位问题根因。
- 问题止损:通过流量摘除或切换等方式先行止损。
部署高可用架构
- 提升应用系统单实例宕机容错和极端场景容灾能力,达到99.975%和99.995%的可用性SLA。
响应主动运维事件
- 通过云盘宿主机宕机、本盘实例单磁盘故障等场景,提前响应系统事件,避免业务中断。
弹性能力管理容量
- 通过ESS弹性伸缩服务,自动规划管理应用系统容量水位,适应无规律、有规律和无明显业务量波动场景。
自诊断定位根因
- 使用实例健康诊断能力,快速定位网络、存储、系统文件等层面的问题。
回顾总结
- 稳定性建设实践:涵盖稳定性度量体系、线下预防体系、线上守护体系、客户侧联动体系和稳定性重保体系。
- 弹性计算概念:便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。
- 云上运维最佳实践:通过高可用架构、主动运维事件响应、弹性能力管理和自诊断能力,提升运维效率。