您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[SRE-Elite.com]:SRE 实践白皮书 - 发现报告

SRE 实践白皮书

2025-07-01SRE-Elite.comM***
SRE 实践白皮书

修订记录新增了第四章“SRE进阶”,供SRE管理者参考,相关模块包括了“SRE团队的生存与持续发展”“SRE团队的综合算力调度”“SRE团队的货币化改革”“SRE货币化后的持续发展”,其中本次发布“SRE团队的生存与持续发展”,其他模块后续奉上章节架构调整:将原第二章SRE组织架构并入第一章;新增第二章SRE的基础(编写重)。”第三章第5节《故障应急》:结构进行了全面优化,新增“xx银行”,“腾讯IEG”,“小米米家”,“广发证券”等多个案例,并对原“美图”案例展望部分进行了更新第三章第5节《故障应急》:结构进行了全面优化,新增B站和蚂蚁的两个案例调整“应用服务SLI/SLO/SLA”“重大技术保障”章节至本章,并在后者新增《OPPO春节业务保障》案例;大幅完善故障应急体系章节内容 1.0.6修订记录:本次新增约六万字1.0.5修订记录:本次新增约三万字 1.0.4修订记录:第三章第2节《研发保障》结构进行了优化,并增加了《某大型游戏全球研发保障实践》等合共2个案例,新增2.7万字。第三章第5节《故障应急》结构进行了优化,依据2024年6月22日北京小米站沙龙更新并增加了《小米故障应急响应经验分享》等合共5个案例,新增4.5万字。1.0.3修订记录:第三章第4节《变更管理》依据2024年4月13日上海B站沙龙更新约4万字,包括6篇不同类型的企业案例1.0.2修订记录:增加了版权声明为CCBY-ND4.0修正了目录没有3.1.1的问题修改了页眉的时间点修正了部分错别字 目录第一章SRE整体介绍........................................................................................11.1前言.......................................................................................................11.2SRE发展历程......................................................................................21.3SRE的目标..........................................................................................41.4SRE的组织架构..................................................................................5第二章SRE的基础(编写中)..............................................................................9第三章SRE的职能..........................................................................................101可靠性架构设计....................................................................................101.1应用韧性架构.............................................................................111.1.1分布式设计......................................................................111.1.2解耦设计..........................................................................111.1.3冗余设计..........................................................................111.1.4熔断设计..........................................................................121.1.5限流设计..........................................................................121.1.6降级设计..........................................................................131.1.7可观测设计......................................................................131.2基础设施保障.............................................................................141.2.1机房多活..........................................................................141.2.2网络容灾..........................................................................141.3数据灾备.....................................................................................14 1.3.1数据备份..........................................................................141.3.2数据回滚..........................................................................142研发保障................................................................................................152.1研发保障体系设计......................................................................162.1.1代码可靠性......................................................................162.1.2代码仓库可靠性..............................................................282.1.3构建可靠性......................................................................342.1.4制品可靠性......................................................................382.2研发保障工程体系设计.............................................................422.2.1面向研发保障的持续集成流水线..................................422.2.2面向研发保障的可观测设计..........................................462.2.3面向研发保障的操作调度操作平台..............................482.2.4面向研发保障的ITSM平台............................................512.2.5面向研发保障的容器平台..............................................512.2.6面向研发保障的编译加速平台......................................532.3研发保障案例..............................................................................552.3.1腾讯游戏全球研发保障实践..........................................552.3.2某语音直播公司研发过程保障实践.............................1283入网控制..............................................................................................1513.1运行环境适配...........................................................................1513.1.1运营环境设计................................................................1513.1.2容器云适配....................................................................153 3.1.3数据库存储适配............................................................1573.1.4信创适配........................................................................1583.2运行环境交付...........................................................................1633.2.1基础资源服务................................................................1633.2.2可观测策略....................................................................1643.2.3自动化策略....................................................................1673.3测试策略...................................................................................1693.3.1连通性验证....................................................................1693.3.2功能测试........................................................................1713.3.3性能压测........................................................................1743.3.4数据迁移.......................