Breaking Boundaries-Iteration-Endogenous Growth 阿里云网络稳定性进化之道 盖镜源 阿里云智能集团高级产品解决方案架构师 本演讲的主旨 汇报阿里云网络稳定性工程实践,启迪云时代网络稳定性新范式建设。 破界:传统网络稳定性模型的局限 公共云的特殊性打破传统边界 传统稳定性-容灾思想 公共云的特殊性 云网络稳定性新挑战 多链路/多板卡/多设备/多厂商/多机房等1.设计并行路径:多链路/多板卡/多设备/多厂商/多机房等2.故障检测感知:光路检测、健康检查、BFD探测等3.故障快速恢复:路径切换、主备倒换、设备替换等 1.海量租户:需要软件Overlay做大租户规模,系统庞大、变更频繁2.资源共享:邻居租户共享同一套物理资源,租户间突发任务干扰 1.微突发流量导致的性能抖动,多租户环境下的QoS保障2.软件处理网络转发,租户网络的确定性性能3.庞大软件系统,驾驭与变更管理 迭代:云网络稳定性建设新范式 被动响应到内生主动防御的思路、体系、技术 内生1:全栈自研的稳定性红利 自主可控的核心技术 “一次故障,获得免疫" 03“问题-修复-沉淀”快速闭环 ZooRouteNetExpressZooNet 02创新更契合的稳定性技术 01破除任何"黑盒"依赖 内生2:主动式故障域隔离与爆炸半径控制 •将服务随机映射到多个子实例,确保不同租户故障域组合差异化•单子实例故障时,受影响租户随机且稀疏分布•“规模免疫”:系统越大,个体租户受故障影响的概率越低 •服务用户多、资源规模大的组件,按某种维度(比如实例id)拆分成多个独立子实例•每个子实例仅服务一部分用户,彼此之间无共享、无干扰,缩小故障范围、缩短故障平均修复时间 •在保留弹性与共享的前提下,通过主动式故障域隔离,控制爆炸半径,实现“既共享又安全”的目标 •隔离:一个独立功能组件只在一个可用区内完成服务,避免其他可用区故障影响•可靠:相同功能的组件在多个可用区部署副本,当一个可用区故障后其他可用区组件副本接管服务 内生3:打破控制面局限 使用资源预留、数据面收敛、恒定负载和静态稳定性 优化的关键策略 控制面的局限性 1.控制平面过载时,无法及时响应请求2.资源不足时,无法实现弹性扩容3.依赖外部服务,外部服务可能会故障4.逻辑复杂、调用延迟、一致性校验等导致响应时间长 1.优先数据面收敛故障:500ms~3s生效2.关键资源预留:控制面关键服务部署时必须有足够的资源预留,不依赖弹性3.保持控制面负载恒定:通过队列限速、缓存、调度等机制4.静态稳定:控制平面组件失联时,转发组件保持最后状态继续工作 内生4:确定性的变更管理 对生产系统变更入口进行管理,确保系统密闭性 •白屏化基础上,“变更编排→智能监控→异常自动刹车”•效率再次提升、有错即停 •运维控制台上创建、执行、分析,标准化•效率、正确率更高•权限管控,系统密闭性形成 •脚本调API,效率有提升•Doublecheck的机制,能做到99%的正确率 •人工操作,效率很低•Doublecheck的机制,通常能做到99%的正确率 内生5:Fail-Ops工程实践 以破坏性为核心的测试,面向失败的演进 结语 今天,稳定性不再是一支队伍的坚守,而是“我们的”共同使命!请您与我们携手,共建可信赖的云网未来——让每一次连接,都坚如磐石! 现在,我们用“主动防御、经验编码、Fail-Ops”等先进的内生技术推动着云网络的稳定发展! 曾经,我们用“容灾倒换”的思路守护着传统网络的平稳运行! 谢谢 阿里云更多稳定性解读,请扫码: