AI智能总结
v1.0.5 2024年12月SRE-Elite.com 修订记录 1.0.5修订记录: 本次新增约3万字 第三章第5节《故障应急》:结构进行了全面优化,新增B站和蚂蚁的两个案例 调整“应用服务SLI/SLO/SLA”“重大技术保障”章节至本章,并在后者新增《OPPO春节业务保障》案例; 大幅幅完善故障应急体系内容 1.0.4修订记录: 第三章第2节《研发保障》结构进行了优化,并增加了《某大型游戏全球研发保障实践》等合共2个案例,新增2.7万字。 第三章第5节《故障应急》结构进行了优化,依据2024年6月22日北京小米站沙龙更新并增加了《小米故障应急响应经验分享》等合共5个案例,新增4.5万字。 1.0.3修订记录: 第三章第4节《变更管理》依据2024年4月13日上海B站沙龙更新约4万字,包括6篇不同类型的企业案例1.0.2修订记录: 增加了版权声明为CCBY-ND4.0 修正了目录没有3.1.1的问题 修改了页眉的时间点修正了部分错别字 目录 第一章SRE整体介绍............................................11.1前言..................................................11.2SRE发展历程..........................................21.3SRE的目标............................................4第二章SRE的组织架构..........................................6第三章SRE的职能..............................................101可靠性架构设计.........................................101.1应用韧性架构.....................................111.1.1分布式设计.................................111.1.2解耦设计...................................111.1.3冗余设计...................................111.1.4熔断设计...................................121.1.5限流设计...................................121.1.6降级设计...................................131.1.7可观测设计.................................131.2基础设施保障.....................................141.2.1机房多活...................................141.2.2网络容灾...................................141.3数据灾备.........................................141.3.1数据备份...................................141.3.2数据回滚...................................142研发保障...............................................152.1研发保障体系设计..................................162.1.1代码可靠性.................................162.1.2代码仓库可靠性.............................282.1.3构建可靠性.................................342.1.4制品可靠性.................................382.2研发保障工程体系设计..............................422.2.1面向研发保障的持续集成流水线................422.2.2面向研发保障的可观测设计....................462.2.3面向研发保障的操作调度操作平台..............482.2.4面向研发保障的ITSM平台.....................512.2.5面向研发保障的容器平台......................512.2.6面向研发保障的编译加速平台..................532.3研发保障案例......................................552.3.1腾讯游戏全球研发保障实践...................552.3.2某语音直播公司研发过程保障实践.............1293入网控制..............................................1523.1运行环境适配....................................1523.1.1运营环境设计..............................152 3.1.2容器云适配................................1543.1.3数据库存储适配............................1573.1.4信创适配..................................1583.2运行环境交付....................................1633.2.1基础资源服务..............................1633.2.2可观测策略................................1653.2.3自动化策略................................1673.3测试策略........................................1693.3.1连通性验证................................1693.3.2功能测试..................................1713.3.3性能压测..................................1743.3.4数据迁移..................................1793.4变更评审........................................1803.4.1稳定性架构设计评估........................1803.4.2非功能性技术评估.........................1823.4.3变更保障准备工作评估......................1853.4.4新系统或新业务上线保障评估...............1864变更管理..............................................1884.1发布管理与变更管理关系阐述.......................1894.2变更体系设计.....................................1914.2.1变更体系设计原则..........................1914.2.2变更及发布流程设计........................1924.2.3变更的工程体系设计........................2154.3变更管理案例.....................................2434.3.1B站变更防控的设计与实践...................2434.3.2携程云平台基础设施变更管理实践.............2654.3.3某银行变更管理设计与实践...................2874.4发布管理案例.....................................3064.4.1中移互联网敏捷发布平台建设实践.............3064.4.2某证券变更一体化平台建设实践...............3254.4.3游戏GitOps发布管理实践....................3435故障应急..............................................3505.1故障体系.........................................3505.1.1故障定义...................................3505.1.2故障等级...................................3505.1.3故障序列...................................3515.1.4关键业务场景...............................3525.1.5应用服务SLI/SLO/SLA........................3545.2故障应急体系.....................................3625.2.1故障应急体系设计原则.......................3625.2.2故障应急流程设计...........................3625.2.3故障应急工程体系设计.......................3895.3故障应急案例.....................................4025.3.1小米故障应急响应经验分享...................402 5.3.2中国联通数字化监控平台稳定性保障实践.......4315.3.3腾讯全球化游戏故障管理实践.................4645.3.4XX银行应急管理一体化平台建设实践..........5045.3.5美图故障管理体系搭建实践...................5185.3.6B站轻量级容灾演练体系构建.................5725.3.7蚂蚁故障应急全流程体系构建及应用实践.......6115.4重大技术保障.....................................6485.4.1整体统筹保障..............................6485.4.2技术方案保障..............................6495.4.3工具可靠性保障............................6505.4.4突发事件保障..............................6525.4.5示例1:Oppo春节业务保障.................6535.4.6示例2:交易类大促核心保障流程和方案......6685.4.7示例3:银行类通用重大保障活动............6715.4.8示例4:发布会直播通用重大保障活动........6745.4.9示例5:哀悼日停止游戏服务保障............6786上线后持续优化工作....................................6856.1用户体验优化....................................6856.1.1基于用户端的直接用户体验优化..