AI智能总结
02 自动化闭环演练 03 04 01 价值分析 价值分析 复杂的系统群 故障类型 混沌工程介绍 概念 In software development, a given software system's ability to tolerate failureswhile still ensuring adequate quality of service—often generalized as resiliency—is typically specified as a requirement. However, development teams often fail tomeet this requirement due to factors such as short deadlines or lack ofknowledge of the field. Chaos engineering is a technique to meet the resiliencerequirement. Ø目标 •建立系统抵御生产环境中发生不可预知问题的信心。•把不确定变确定。 混沌工程收益 02、流程 01、人 用户:稳定的用户体验测试:提前发现隐患并降低故障复发率开发和运维:提升故障应急效率 故障治理体系:完善故障治理体系,从被动发现转为主动发现故障应急:验证报警有效性与及时性,预案的可行性 03、系统 韧性:提升系统容错、容灾能力基础能力:可监控、可回滚可降级 混沌工程平台 应用层次架构 实践路径 应用演练 技术选型 Ø目标:弱依赖挂掉,主流程不受影响 强弱依赖超时是否合理、熔断是否符合预期、异常是否被处理等 依赖关系不健康导致的蝴蝶效应 演 练 流 程 演 练 收 益 1、混沌平台基础能力建设2、演练经验、流程沉淀3、演练系统68个,工时70PD,发现问题136个4、认知统一,价值认可 1、服务治理依赖关系收集2、用户标记依赖关系3、进行强弱依赖演练4、问题修复结果确认 自动化闭环演练 混沌平台 自动化测试平台 03对压测流量进行识别,只对压测流量注入故障,实现在线上无损演练 自动生成测试用例 01 02 压测标识流量,线上数据和日志能够识别压测标识,进行隔离 压测平台 断 言 方 法 断 言 维 度 1、对入口的结果数据进行对比,核心业务字段对比产生断言结论2、标记核心监控和核心指标,有问题及时熔断 断 言 标 准 1、对于C端用户,功能有没有受到影响2、核心数据有没有问题:金额、订单数据 命中概念:故障注入期间,压测流量打到当前依赖 配置关心忽略节点,进行强弱依赖断言 自动闭环演练-效果 覆盖21个核心入口,2800个依赖,不合理依赖96个,演练成本由260PD,降低到10PD 04 攻防演练 攻防演练 攻防演练 Ø攻击方注入攻击点,防守方排查出异常后上报给攻击方,攻击方确认攻击点是否正确 攻防演练 Thanks DevOps时代社区荣誉出品