您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [阿里巴巴]:云卓越架构:云上网络稳定性建设最佳实践 - 发现报告

云卓越架构:云上网络稳定性建设最佳实践

信息技术 2024-09-20 张 星 阿里巴巴 Joken Hu
报告封面

云卓越架构 云上网络稳定性建设最佳实践 张 星 阿里云智能集团云网络解决方案架构师2 0 2 4 /0 9/2 0 CONTENT目录 云上网络稳定性体系建设01 可观测、应急快恢和故障演练03 Part 1 云上网络稳定性体系建设 云上网络的稳定性挑战 网络稳定性是业务稳定性的基石 云网络稳定性治理的责任共担 稳定性治理的责任分工 Part2 同地域网络设计 VPC网络规划设计 设计关键点 设计方案 业务场景 容灾 同城多活:VPC内划分的子网均支持多个可用区,应用可以跨可用区部署,实现业务同城多活。 稳定可靠的私有业务环境 容错 阿里云机房按照GB50174-2008《电子信息系统机房设计规范》不低于B级或者《TIA942》的T3+标准建设 容量 地址规划:IP地址统一规划,与现有内网地址不能冲突且留有冗余,可以满足业务长期发展的需求。 安全的业务环境 弹性架构:ALB/NLB加弹性伸缩实现弹性服务架构 云上跨地域网络设计 转发路由器TR协同云企业网CEN分钟级构建跨地域互联网络 设计关键点 业务场景 容灾 VPC接入双AZ高可靠:VPC实例关联至TR时,请务必确保至少2个及以上可用区VSWENI连接,保障同城VPC多可用区高可靠。 容错 多条跨域专线配合主备环网,使2点间不少于3条路径保护基于多平面网络异常检测,多因子分级最优路径决策以及秒级重路由路径调整的全新主动式重路由技术。 容量 TR集群的高性能和弹性:单个TR集群支持100Gbps转发性能,且单个VPC连接支持10Gbps,无需用户配置规格按需弹性。 跨域带宽支持按量弹性付费:开通云数据传输服务CDT后,TR跨地域带宽支持按流量计费。 混合云专线网络设计 专线构建混合云架构 容灾 通过双专线双接入点,提供线路级/设备级/机房级的高可用能力,提供不同级别的SLA保障 容错 IDC专线上云 超大规模的城域专用光纤互联冗余连接,毫秒级故障倒换 容量 对于稳定性要求高的业务可以规划多组小带宽专线,提供独享链路对于资源灵活共享的业务可以在同一组大带宽专线中,通过vbr/qos等能力实现容量规划 专线跨云互通 混合云专线网络设计 BGP+BFD+快速倒换组,实现专线快速收敛和倒换,提升业务的连续性 容灾 BGP:在物理专线接入过程中,可以使用动态路由协议BGP实现本地数据中心IDC与边界路由器VBR之间的内网互连,从而搭建高效的混合云链路BFD:是一种双向转发检测机制,可以提供毫秒级的检测,可以实现链路的快速检测快速倒换组:当BFD探测到链路故障后,流量自动从故障链路的VBR快速切换到备份VBR,完成毫秒级切换,加快阿里云网络内部收敛,实现业务平滑过渡 IDC专线上云 专线跨云互通 混合云VPN网络设计 IPSec-VPN结合CEN-TR,提供高效弹性的加密链路上云 容灾 用户可以在多个VPN链路之间进行ECMP负载均衡接入,从而提高可用性;双隧道模式的IPsec-VPN连接拥有主备两条隧道,在主隧道故障后,流量可以通过备隧道进行传输,提高了IPsec-VPN连接的可用性 容错 VPN网元底层是NFV集群化设计,底层单机故障可以做到实时热迁移 容量 VPN之间可以通过多个实例横向扩容,单个VPN隧道支持1Gbps的带宽,并且可以通过多个VPN实例快速构建更大级别的链路 混合云3rdSDWAN网络设计 繁荣的集成生态,助力企业国内外分支便捷上云 容灾 分支到阿里云的underlay线路选择不同的线路供应商实现物理通道的高可用全链路动态路由,BGP中断触发路由自动切换到健康实例路由自动发布到TR路由表,并向全网自动发布 容错 多分支上云 云上部分依赖云原生产品的高可用设计SDWAN部分依赖厂商自身的容错设计 容量 该方案整体不具备弹性能力,端到端链路的弹性受限于本地网络公网出口带宽、专线带宽、3rd SDWAN转发性能的影响,如果需要扩容传输带宽,需要评估传输链路、CPE、SDWAN应用的转发能力 应用交付网络设计 应用型负载均衡ALB专门面向七层,提供超强的业务处理性能,阿里云官方云原生Ingress网关 容灾 多可用区部署:避免单可用区故障,单可用区资源瓶颈。健康检测:健康检查机制避免了后端ECS异常对总体服务的影响,提高了前端业务整体可用性 应用多活 容错 多节点session同步,单机、单节点故障长连接不中断对ALB proxy的http类型健康检查,故障节点自动摘除 •丰富的转发规则:可以基于源IP、Cookies进行流量匹配并设置相应转发规则,支持Redirect、Rewrite、Response方向的转发规则。•服务化WAF:该接入方式WAF不参与流量转发,业务监听与转发由ALB负责,实现转发与防护完全分离,避免了WAF转发额外带来的各种兼容性和稳定性问题。 容量 业务安全 单实例100WQps:动态弹性伸缩,单实例支持高达100WQps。 跨地域调度网络设计 全局流量管理GTM通过DNS实现业务应用访问优化和异地容灾 设计方案 容灾 多中心部署:业务同城双可用区部署,跨地域多活灾备部署服务可用性实时探测:GTM健康检测探测服务可用性,服务一旦不可用快速切换至双活节点,实现两地三中心应用级容灾 应用容灾调度提升服务连续性 容错 GTM采用全球多节点部署的架构设计,实现了各节点之间的互备,有效避免了单节点故障导致的服务中断。 •精准识别请求来源:提供高精度地址库,支持地域、运营商多类型地址库组合精准识别请求来源。 •多维判定服务可用:支持3-7层健康探测,支持健康探测模版配置,多模版综合判断可用性,最快1分钟发现并完成故障切换。•灵活的调度策略:支持顺序、权重、轮询、来源就近多种调度策略组合,满足更丰富的容灾调度场景。 方案核心能力 容量 应用访问优化提升服务体验 通过自研的高性能DNS解析软件,单机解析并发能力超过千万,支持动态水位扩容升级,确保解析服务的高可用性和弹性伸缩。 Part3 可观测、应急快恢和故障演练 可观测、应急快恢和故障演练 智能运维:网络流量可视化 ◼流量TopN分析:有效抓取流量刺客,解决网络拥塞问题 网络流量不可见 •流量耗用了多少?•哪些业务耗用的多?•带宽资源使用是否合理?•成本是否最优?•网络质量怎么样?•…… ◼流量洞察分析:应用AIOps智能基线预警,及时感知公网质量劣化和对业务IP的影响 可观测、应急快恢和故障演练 智能运维:网络实例诊断和路径分析 ◼实例诊断:选择网络实例一键触发,诊断全面,报告详实 应急快恢 输出诊断报告 •按实例类型匹配诊断项;•扫描实例配置和状态;•异常结果给出解决方案;•生成全量诊断报告,供归档审计; 服务不可用问题 ◼路径分析:输入路径五元组,逐跳分析网络连通性,提供转发拓扑和网络断点根因分析 •实例配置是否完整?•连通性是否达到预期?•…… 输出转发拓扑和分析结果 逐跳配置检查:路由、ACL、安全组和防火墙拦截日志等断点分析:路由表无命中条目、ACL/安全组存在拦截规则、防火墙存在历史拦截等路径推荐:若访问不通,提供可选路径推荐和配置建议 可观测、应急快恢和故障演练 故障演练:ALB/NLB NLB/ALB实例级容灾及演练 解决方案级别的AZ级别的容灾演练 容灾:VIP探测失败,主动从DNS摘除VIP的A记录演练:主动摘除VIP,存量连接不影响,DNS不再解析该VIP 容灾演练:与云速搭(CADT)结合,支持整个组网AZ级别的容灾演练 可观测、应急快恢和故障演练 故障演练:高速通道 高速通道产品已支持用户自主进行故障演练,验证组网的可靠性(可以验证流量是否正常切换、切换耗时) Part4客户案例 客户案例 阿里云助力某头部出行服务商构建全球互联网络 **是全球领先的出行服务商,用户可以通过该平台享受丰富的出行旅行服务。该客户业务包括酒店、机票、火车票等核心板块。原先国内的主要资源在上海IDC,海外主要资源在海外某云服务厂商,如今与阿里云合作,在上海、新加坡等地覆盖其核心业务板块。 业务需求 方案价值 •业务出海:后疫情时代,通过出海寻找业务的增量市场,需要全球组网•多云互联:国内外不同云服务厂商,多云之间需要快速便捷打通•业务隔离:不同的核心业务之间进行管控和隔离,架构分层分域 •稳定:专线、IPSec等场景均采用多链路冗余设计,提供稳定链接•安全:通过CEN多平面承载不同核心业务,不同域进过防火墙•弹性:跨境专线和多云互联链路可按需弹性扩容,快速响应业务发展 谢谢Thank You