您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023 Gdevops全球敏捷运维峰会]:2-2 章清云-浙江移动SRE运维体系成熟度研究与实践 - 发现报告

2-2 章清云-浙江移动SRE运维体系成熟度研究与实践

AI智能总结
查看更多
2-2 章清云-浙江移动SRE运维体系成熟度研究与实践

浙江移动SRE运维体系成熟度研究与实践 演讲人:章清云 个人介绍 章清云 中国移动浙江公司SRE负责人 超越自我”工作价值观,致力于系统连续性保障,熟悉应用维护,稳定性提升,架构治理,灰度发布、流量回放等工作。 运维面临的巨大挑战 架构复杂度呈指数级跳变严禁商业用途 云原生演进 易变性,不确定性,复杂性,模糊性 运维困局的本质 运维的困局不是来自于运维本身 而是在数字化时代,对运维定位、文化理念、组织架构、协同机制、运营体系的挑战 运维破局的关键点SRE SRE是云原生演进破局的关键 核心原因:SRE是最靠近业务的价值引领点 拥有SRE的运维团队,定位变成了与开发相互赋能的平行组织自我解放端到端负责环境管理和连续性管理,士气高涨,自闭环,自演进价值回归 SRE成熟度模型框架-架构设计 架构设计并不是规划开发独有 SRE具备架构设计能力,从运维的角度思考系统架构的合理性 SRE成熟度模型框架-入网控制 入网是生产系统病魔的开始 唯有对入网严格管控,才能真正降低系统故障率 SRE成熟度模型框架-上线发布 SRE成熟度模型框架-上线发布(灰度发布) SRE成熟度模型框架-生产突击-感知泛化 SRE成熟度模型框架-生产突击-四层定界 SRE成熟度模型框架-生产突击-1-5-10 1分钟发现5分钟定位10分钟恢复 SRE成熟度模型框架一生产突击 “SRE的经验告诉我们,大概70%的生产事故由某种部署的变更而触发” 《SRE:Google运维解密》 每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。 SRE工程实践-灰度发布 可用区(AvailabilityZone):由一个或者多个数据中心构成的逻辑单元,可用区之间可以实现对数据中心级故障的完全隔离 SRE工程实践-灰度发布 完整的弹性沙箱平面,按需使用统一的配置在线管理,灵活管理支持全渠道引流控制,精准及时全局的任务调度框架,有序管控自动的代码发布更新,便捷高效 SRE工程实践-流量回放测右移 云原生加速企业创新,驱动测试右移,提升交付质和效率 在生产环境中进行测试,确保产品在生产中的稳定性和性能从生产的实时监控反馈,及时发现缺陷,以确保软件功能质量能够测试在测试环境中不可能创建的使用场景和实际负载级别 测试右移是从客户的角度来提升软件的实际的可用性。建立由SRE主导的右移测试,本质上也是运维研发化转型的重要突破 SRE工程实践-流量回放测右移 数据创造价值 SRE工程实践-流量回放测右移 SRE工程实践-混沌工程 混沌工程不只是故障注入技术的应用 更考验团队在组织文化,架构能力,故障运营,风险控制等方面的能力架构升维拉动运维转型,运维转型支撑架构升维 SRE工程实践-混沌工程 演练组织形式 实施人员:蓝军为SRE和各专业组成的混编团队,红军为全体生产保障人员,并由领导组成司令部进行风险管控及决策 》实施窗口: 重大变更窗口 普通变更窗口 双向评价标准 红军得分: 蓝军附加得分: 红军按照实际演练期问故障的的处理情况为主要准则,单项满足得100。 蓝军根据实际演练发现的架构问题,并评估架构问题可以引发的风险级别 V3分钟内故障感知:10分 V8分钟内故障定位:50分V15分钟内故障恢复:100分 VF5风险及以下10分 Score【红军】=100,则红军胜;Score【红军】<100,则蓝军胜;Score【红军】=100且Score【蓝军】>0,则双赢;Score【红军】<100且Score【蓝军】<0,则双输. VF4风险50分 F3风险及以上100分 若蓝军洁场失败引发故障,为-100 思考 故障抢修模式的演进,“1-1-1’ SRE的泛化会到什么程度,比如应用安全?研发(代码类)等 大模型在运维领域发挥的作用。 Gdevops 全球敏捷运维峰会 THANKYOU