个人简介 张 达 ( 晓 达 ) 公 司 职 位 支付宝-数字互联SRE团队负责人 负责解决支付宝-数字互联业务发展阶段下稳定性问题,长期在应急、容量、大促等领域进行沉淀,迭代技术风险应急、大促架构,助力业务目标达成。 业务SRE定义 目录 蚂蚁应急专题介绍 蚂蚁大促专题介绍 业务SRE定义 什么是SRE? 来自通义千问 来自ChatGPT •站点可靠性工程师(SiteReliabilityEngineering) •确保大规模复杂分布式系统的高可靠性,帮助企业在不断变化的环境中保持竞争力和高效运营 ØSLO、SLAØ自动化工具Ø故障排查和恢复Ø监控告警Ø预算管理Ø… 那什么是“业务”SRE? 传统SRE关注整个基础设施 业务SRE更侧重于特定业务系统的可靠性和效率 (1)懂业务、懂可靠性、懂运维(2)识别业务痛点、优化性能、提升用户体验(3)故障响应、针对业务背景下的问题快速解决(4)大协同模式:研发、质量、PD、BD、平台SRE 业务SRE工作目标:解决业务可靠性和效率痛点,助力业务发展 业务SRE稳定性大图 业务专项-对齐业务发展目标 业务专项-实践路径 蚂蚁应急介绍 蚂蚁应急要求 1-5–10 蚂蚁应急发展历史 蚂蚁应急值班长机制 背景 为了⿎励和培养蚂蚁技术同学具备全⾯的应急⽌⾎、组织能⼒,蚂蚁全局稳定性⼩组特设⽴应急值班⻓机制。由⼩组成员挑选出对业务有⼀定了解,有组织⼒、决策⼒,且已经过3次以上符合预期的应急处置(包括线上的真实问题和演练问题)的同学,授予蚂蚁应急值班⻓称号。 选拔机制 •由全局稳定性⼩组组⻓、副组⻓选拔组建⽽成•⼀年为⼀个任期•⼈数控制在4-6名•BU应急值班⻓ •由研发、质量或SRE同学担任,由全局稳定性⼩组组⻓、副组⻓通过邮件审批通过为主;•⼀年为⼀个任期,⼀次替换不能超过现有50%的⼈员,保证⼀定的新⽼交替;•每个BU应急值班⻓⼈数约占本BU⼈数的1%,技术⼈员⽐较多的BU可以设置两级值班⻓结构; 激励机制 •授权上岗:蚂蚁集团CTO签名授牌•内外头衔:内⽹增加“蚂蚁应急值班⻓”头衔•公开表彰:在实际应急过程中发挥重要作⽤的同学进⾏公开表彰 蚂蚁应急一张图 蚂蚁应急产品 客诉舆情应急产品 端智能应急产品 蚂蚁应急技术 蚂蚁大促稳定性 此处添加详细文本描述,建议与标题相关并符合整体语言风格此处添加详细文本此处添加详细文本描述 大促分级及SOP 支付峰值型大促介绍 玩法峰值型大促介绍 挑战点1:营销类玩法通常伴随秒杀,秒杀抢券、亿级别红包同时发放等 挑战点2:玩法多样复杂,C端用户行为难以预测准确 耗时敏感/GPU快上下 挑战点3:玩法大促通常带来端增,整个APP以及在离线链路压力巨大 大促流量预测技术 大促资源超卖技术 Spot Instances是云服务提供商(如Amazon Web Services, AWS)提供的一种按需计算资源,它允许用户以比常规按需实例更低的价格运行计算任务。Spot Instances的价格会根据当前的供需情况动态变化,但用户可以设置一个最高出价,如果市场价格低于这个出价,用户的实例就会启动。 核心用户动线 资源上报 运行+回收 核⼼技术3:动态负载预测和回收 核⼼技术1:基于三层混布的超卖技术 prod当cpu利用率在40%以下时利用率和算力成线性关系,在cpu利用率接近40%的时候,算力开始出现下滑;mid/batch层的算力,当prod层的cpu利用率超过60%时,mid/batch算力下降比较严重,已经低于我们的QoS预期 如果上个步骤检测出来某个资源会有争抢风险,那么这一步会根据可能出现问题的严重程度,对节点上优先级比较低的pod进行处理,处理措施包括压制容器资源的使用量、直接驱逐pod、或者减少节点上报资源暂停新pod调度到节点上 三层混部的基础上把prod层超卖出来更多的资源,而不只是刚好把物理机总量拿去分配。这样一方面可以解决prod层资源比较紧缺,mid/batcg层资源相对空闲的资源不均衡问题;另外一方面也可以最大化超卖资源的算力QoS质量。 G O P S全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会2 0 2 4·上 海 站 T h a n k s Q&A




