您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站]:云上企业联合故障演练解决方案 - 程哲桥 - 发现报告

云上企业联合故障演练解决方案 - 程哲桥

报告封面

从混沌工程入手,谈云上技术风险构建 姓名:阿里云--程哲桥(苗刀) 个人简介 程 哲 桥(苗 刀) 阿里云资深技术专家 十年阿里集团专家,先后服务电商,支付等核心在线业务,擅长数据库技术,高并发系统保障,系统稳定性架构,大型系统上云、容灾。 目前服务于阿里云,为企业客户上云和用云提供工具、产品和技术服务整体解决方案,致力于持续推动技术服务在客户技术风险维度的标准化和创新。 联合演练 演练场景 技术风险 •技术风险分类•技术风险体系•云时代客户应对方案•为什么是演练? 技 术 风 险—分 类 发生位置 环境变化 影响面 运营活动促活、促销… 单系统独立的应用、脚本、任务… 影响面代码发布发布、升级、版更… 影响面物理硬件物理机、存储、网络设备… 多系统 影响面上下游多个系统、横向关联系统… 配置推送权限策略、流量规则… 数据中心 横跨多个企业业务单元… 机房的水、电、网络… 人为攻击黑灰产、安全攻击… 2015.05.272022.12.18支付宝机房光纤挖断阿里云香港C冷却系统故障 2024.04.082024.09.10腾讯云控制台故障阿里云新加坡C火灾 重大故障 云 时 代 客 户 应 对 方 案 联合演练 分工合作的技术风险 业务链路高可用 云厂商 业务&应用 基础&平台 基础设施高可用 联合演练 •演练背景•实践与收益•整体方案•应急机制•策略和分级 联 合 演 练—背 景 云产品高可用不等于业务高云产可用,且品故障恢复,不代表业务可恢复,业务应用需具备故障逃逸能力。 联 合 演 练—整 体 方 案 联 合 演 练—应 急 机 制 应急角色明确职责要求,应急事件明确规范标准 通过演练场景、日常应急场景沉淀云产品恢复预案 围绕演练产品,提前巡检监控完善度和准确性 全流程复盘,改进优化机制以及提升应急能力 围绕联合演练建设提供专业人员的组织保障 联 合 演 练—策 略 和 分 级 以演练促提升:建设高可用容灾架构,提升故障逃逸能力,具备跨机房、跨地域的容灾能力 计划性演练 突袭演练 演练目的 演练目的 明确故障应急流程及故障应急目标(1-5-10),通过突袭演练,验证故障应急流程的有效性及协同效率,同时基于故障应急目标,持续改进故障应急流程,提高业务恢复能力。 明确架构韧性能力及关键目标,通过计划性演练,从应用架构、基础架构验证应用高可用能力等 演练方式 演练方式 云产品故障演练:建议保持每月至少一次,每次提前一周规划准备应用高可用演练:建议新业务上线演练,以及核心业务常态化演练应急能力保鲜 预设多场景演练能力,由管理层触发突袭演练 演练复盘 建议演练当周尽快完成复盘,并持续跟进演练改进落地规划二次演练验收 G O P S全 球 运 维 大 会 暨研 运 数 智 化 技 术 峰 会2 0 2 4·上 海站 演练场景 •云产品演练场景-明细•混沌工程产品演练场景-明细 云 产 品 演 练 场 景—明 细 覆盖计算/网络/存储等核心云产品及管控API,提供丰富开放的底层故障场景,验证云产品故障注入及恢复时,应用是否具备自愈能力。 资源确认:提供可演练资源信息窗口确认:联动业务方确定可演练时间可演练检查:例如:业务链路或应用本身容量是否充足,检查演练对象中是否包含有状态应用部署监控确认:检查演练对象部署的应用业务监控完备性预案确认:非预期情况演练对象涉及应用的高可用切换预案 联合演练 演练准备 演练复盘 方案确认:面向客户交付联合演练方案 建议提前一周准备 风险改进 •架构改进方案之用云最佳实践•组织改进之稳定性评估体系•组织改进之稳定性权责 架 构 改 进 方 案 之 用 云 最 佳 实 践 架 构 改 进 方 案 之 高 可 用 架 构 验 证 组 织 改 进 之 稳 定 性 权 责 组 织 改 进 之 稳 定 性 评 估 体 系 故障分 业务影响程度、影响面、业务重要性、恢复时间、重复次数、舆情 Demo:𝑆𝑐𝑜𝑟𝑒=𝑆!"#"!∗Inf$%&'(∗Grade!"#"!∗𝑅𝑇𝑂)*+,-∗𝑅e𝑝𝑒𝑡)*+,-∗𝑂𝑡ℎ𝑒𝑟'./0& Thanks 高效运维社区DevOps时代荣誉出品