行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

蚂蚁集团大规模互联网系统SRE稳定性实践

信息技术 2024-11-04 张达 - 💤 👏

个人简介与业务SRE定义

张达，支付宝数字互联SRE团队负责人，专注于解决数字互联业务发展阶段的稳定性问题，长期在应急、容量、大促领域积累经验，迭代技术风险应急和大促架构。业务SRE侧重特定业务系统的可靠性和效率，需懂业务、可靠性和运维，识别业务痛点，优化性能，提升用户体验，并与研发、质量、PD、BD、平台SRE协同工作。

业务SRE工作目标与稳定性框架

业务SRE工作目标是解决业务可靠性和效率痛点，助力业务发展。其稳定性框架包括业务专项对齐业务发展目标，并实践路径。

蚂蚁应急专题

蚂蚁应急要求与历史

蚂蚁应急要求遵循1-5-10原则，应急发展经历了从无到有、从有到优的过程。值班长机制为鼓励和培养全面应急能力，由全局稳定性小组组长、副组长选拔，每年一任，人数4-6名，BU应急值班长由研发、质量或SRE担任，每年替换不超过现有50%人员，每个BU应急值班长约占本BU人数1%。

蚂蚁应急产品与技术

蚂蚁应急产品包括客诉舆情应急产品和端智能应急产品。蚂蚁应急技术涉及多方面，但正文未详细展开。

蚂蚁大促稳定性

大促分级及SOP

大促分为支付峰值型和玩法峰值型，支付峰值型挑战在于秒杀、红包发放等，玩法峰值型挑战在于玩法多样复杂、端增压力巨大。大促资源超卖技术利用Spot Instances动态调整资源，核心技术包括基于三层混布的超卖技术和动态负载预测和回收。

核心技术细节

三层混布的超卖技术：在prod层超卖资源，解决资源不均衡问题，最大化算力QoS质量。
动态负载预测和回收：检测资源争抢风险，对优先级低的pod进行处理，包括压制资源使用量、驱逐pod、减少节点上报资源等。

个人简介张达（晓达）公司职位支付宝-数字互联SRE团队负责人负责解决支付宝-数字互联业务发展阶段下稳定性问题，长期在应急、容量、大促等领域进行沉淀，迭代技术风险应急、大促架构，助力业务目标达成。业务SRE定义目录蚂蚁应急专题介绍蚂蚁大促专题介绍业务SRE定义什么是SRE？来自通义千问来自ChatGPT •站点可靠性工程师（SiteReliabilityEngineering） •确保大规模复杂分布式系统的高可靠性，帮助企业在不断变化的环境中保持竞争力和高效运营 ØSLO、SLAØ自动化工具Ø故障排查和恢复Ø监控告警Ø预算管理Ø… 那什么是“业务”SRE？传统SRE关注整个基础设施业务SRE更侧重于特定业务系统的可靠性和效率（1）懂业务、懂可靠性、懂运维（2）识别业务痛点、优化性能、提升用户体验（3）故障响应、针对业务背景下的问题快速解决（4）大协同模式：研发、质量、PD、BD、平台SRE 业务SRE工作目标：解决业务可靠性和效率痛点，助力业务发展业务SRE稳定性大图业务专项-对齐业务发展目标业务专项-实践路径蚂蚁应急介绍蚂蚁应急要求 1-5–10 蚂蚁应急发展历史蚂蚁应急值班长机制背景为了⿎励和培养蚂蚁技术同学具备全⾯的应急⽌⾎、组织能⼒，蚂蚁全局稳定性⼩组特设⽴应急值班⻓机制。由⼩组成员挑选出对业务有⼀定了解，有组织⼒、决策⼒，且已经过3次以上符合预期的应急处置（包括线上的真实问题和演练问题）的同学，授予蚂蚁应急值班⻓称号。选拔机制 •由全局稳定性⼩组组⻓、副组⻓选拔组建⽽成•⼀年为⼀个任期•⼈数控制在4-6名•BU应急值班⻓ •由研发、质量或SRE同学担任，由全局稳定性⼩组组⻓、副组⻓通过邮件审批通过为主；•⼀年为⼀个任期，⼀次替换不能超过现有50%的⼈员，保证⼀定的新⽼交替；•每个BU应急值班⻓⼈数约占本BU⼈数的1%，技术⼈员⽐较多的BU可以设置两级值班⻓结构；激励机制 •授权上岗：蚂蚁集团CTO签名授牌•内外头衔：内⽹增加“蚂蚁应急值班⻓”头衔•公开表彰：在实际应急过程中发挥重要作⽤的同学进⾏公开表彰蚂蚁应急一张图蚂蚁应急产品客诉舆情应急产品端智能应急产品蚂蚁应急技术蚂蚁大促稳定性此处添加详细文本描述，建议与标题相关并符合整体语言风格此处添加详细文本此处添加详细文本描述大促分级及SOP 支付峰值型大促介绍玩法峰值型大促介绍挑战点1：营销类玩法通常伴随秒杀，秒杀抢券、亿级别红包同时发放等挑战点2：玩法多样复杂，C端用户行为难以预测准确耗时敏感/GPU快上下挑战点3：玩法大促通常带来端增，整个APP以及在离线链路压力巨大大促流量预测技术大促资源超卖技术 Spot Instances是云服务提供商（如Amazon Web Services, AWS）提供的一种按需计算资源，它允许用户以比常规按需实例更低的价格运行计算任务。Spot Instances的价格会根据当前的供需情况动态变化，但用户可以设置一个最高出价，如果市场价格低于这个出价，用户的实例就会启动。核心用户动线资源上报运行+回收核⼼技术3：动态负载预测和回收核⼼技术1：基于三层混布的超卖技术 prod当cpu利用率在40%以下时利用率和算力成线性关系，在cpu利用率接近40%的时候，算力开始出现下滑；mid/batch层的算力，当prod层的cpu利用率超过60%时，mid/batch算力下降比较严重，已经低于我们的QoS预期如果上个步骤检测出来某个资源会有争抢风险，那么这一步会根据可能出现问题的严重程度，对节点上优先级比较低的pod进行处理，处理措施包括压制容器资源的使用量、直接驱逐pod、或者减少节点上报资源暂停新pod调度到节点上三层混部的基础上把prod层超卖出来更多的资源，而不只是刚好把物理机总量拿去分配。这样一方面可以解决prod层资源比较紧缺，mid/batcg层资源相对空闲的资源不均衡问题；另外一方面也可以最大化超卖资源的算力QoS质量。 G O P S全球运维大会暨研运数智化技术峰会2 0 2 4·上海站 T h a n k s Q&A

点击免费查看完整报告

蚂蚁集团大规模互联网系统SRE稳定性实践

个人简介与业务SRE定义

业务SRE工作目标与稳定性框架

蚂蚁应急专题

蚂蚁应急要求与历史

蚂蚁应急产品与技术

蚂蚁大促稳定性

大促分级及SOP

核心技术细节

你可能感兴趣

张雁丽--OnCall 驱动下的IT系统稳定性运营实践-版

基于数据驱动的系统稳定性保障体系研究与实践-国泰君安证券-胡霞

曹立江-中国联通超大规模 IT 系统下稳定性保障能力落地实践

行稳致远！五问金融企业SRE稳定性建设核心秘密_高效运维社区

腾讯游戏SRE在复杂异构业务中的云原生服务实践

2024年SRE实践白皮书v1.0.4

2-4 武安闯-SRE实践：从SLO工程到GOC体系建设

武安闯-B站 SRE 转型历程与可靠性工程实践

3-3 海外游戏数据中台 SRE 实践 - 刘杰

张立科-市场与服务支撑中心：打造卓越标杆 SRE 运维体系实践