AI智能总结
邓瑞龙作业帮SRE负责人 2019年中加入作业帮,负责多云多活建设,推动作业帮传统业务运维进行云原生转型和能力升级;此外,还负责RocketMQ/Kafka等中间件运维。曾就职于百度、滴滴、Cadence等。 01 02 03 04 01 多云选型背景 多云选型需求背景 稳定诉求 成本诉求 BASE单云 单云基础设施故障时有发生。教学经营和供给场景下,用户服务时间特别集中,对服务稳定有极高要求,不能把所有鸡蛋放在同一篮子里 生于云、长于云。业务量级已达到数千个模块、数十个技术栈、数十万核计算资源,具备复杂化和规模化特征 公司对云成本有严格的预算要求。单云部署被厂商锁定,成本优化手段乏善可陈,既无助,又无奈 多云建设要点 多云模型技术要点 03 多云运维熵增 熵增定律普遍适用 熵是热力学第二定律中的一个物理概念,用来描述热量不可逆转的过程。后来随着科学理论发展,熵逐渐被解释为系统内在的混乱程度。 在孤立的系统内,系统从有序向无序的自发过程中,熵总是增加的。自然万物最终都趋向于从有序到无序发展。将熵维持在较小值,意味着系统需要吸收外在的能量。 放之四海皆准。运维作为信息技术体系的一个细分领域,其底层逻辑归根到底就是通过技术能力加持,通过架构化和工程化,维持信息系统的有序性,以延缓熵增,多云运维亦如此 04 多云管理实践 资源管理熵增挑战 双环组网多云互通 计算管理套餐抽象 服务管理熵增挑战 流量管理熵增挑战 业务域名多 传统DNS面临问题 绕开LocalDNS自建DoH 多云观测熵增挑战 多云观测三大支柱 上能宏观定位下可微观排查 定义场景放大价值 多云演练熵增挑战 多云故障模型简化 正向工程混沌次之 断网方案 断网模型 引入CPE&eBEF数据,从五元组关联到服务,度量非标跨云请求 除了数据存储及有限中间件,其他服务间常态不跨云 正向改造和数据度量后,混沌演练辅助验收 专线CIDR域控&长尾虚机例控应用Mesh控制 多云度量驱动有序 左右开弓,形成闭环,让价值快速流动,达成运维对象同构;建立运维服务化能力,四两拨千斤,实现规模运维 业务问题多维评价 知其然并知其所以然 排榜赛制,差距驱动 多云操作熵增挑战 多云操作变更模型 多云变更风险管控 多云转型总体收益 效率熵增? 成本熵增? 稳定熵增? 掌控云选择权,议价能力增强;大促后可直接缩容退还机器,多云商的备货能力总和大,囤货压力小;京郊AZ部署,成本大幅下降;部分业务流量均摊到多云,单云故障可接受X%损失 服务多活部署,引入多云后故障率虽有增加,但正向建设架构治理干净,且具备分钟级单云故障逃逸能力 DevOps技术加持,小团队也能撬动复杂化规模化业务运维,并在多云环境稳定运行 多云建设未来规划 Thanks DevOps时代社区荣誉出品