您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:构建可靠、高效的全球互联网络 以云为核心的下一代企业全球网络 - 发现报告

构建可靠、高效的全球互联网络 以云为核心的下一代企业全球网络

信息技术2025-10-14阿里巴巴好***
AI智能总结
查看更多
构建可靠、高效的全球互联网络 以云为核心的下一代企业全球网络

Building a Reliable, High-Performance Global Connectivity Network 以云为核心的下一代企业全球网络Cloud-Centric:Next-Generation Global Enterprise Network 孙佳辉 阿里云智能集团高级产品专家 全球互联网络:连接云上云下的全球一张网 高速通道 专线接入上云入口 VPN网关 CONTENT目录 AI时代的全球组网趋势01 构建充分冗余的混合云网络02 快速构建稳定、高效的全球组网03 AI时代催生企业全球互联网络架构演进 通过云网络连接算力和数据,解决算力短缺和数据分散问题 全球组网在AI时代的关键挑战 算力分布式部署与协同训练 网路架构“向算力靠拢”全球组网实现算力池统一调度 海量数据存储实时分发至算力节点 跨域网络带宽成为关键瓶颈。 传统网络交付模式难匹配AI业务迭代速度 以云为核心的全球组网:简单、易扩展的全球互联 企业就近接入云上网络,并通过云全球基础设施扩展至全球 混合云组网的现实挑战:高可用架构部署缺失 仅55% 全网充分冗余的混合云组网数量占比 10% •采用多条专线相互备份,但部分路由并未形成冗余关系。•初期设计符合高可用架构,但业务迭代导致架构走向“混沌” 35% 完全没有冗余配置,部分客户因冗余线路持有成本高牺牲稳定性 构建高可用混合云组网的关键建议 覆盖混合云组网全生命周期的高可用关键能力 冗余不是一次设计,而是持续演进的能力 增强型IPsecVPN:降低高可用链路的持有成本 After:仅专线中断时支付公网费用 Before:VPN备份专线需预占公网带宽 VPN做备链路时虽无流量,但因预占公网带宽,因此客户仍需支付公网带宽费。导致高可用架构和成本难以兼得: 专线无中断时持有成本下降若专线中断按照CDT-公网费率计费 •全冗余备份成本高:备份1G专线,VPN需要8万/月•低成本高可用架构:无法全带宽冗余,甚至无线路冗余 增强型IPsecVPN默认开放1G带宽相当于上一代VPN网关的最大规格 混合云组网能力提升 大带宽专线与安全加密能力 大带宽专线加密:高速通道支持MACsec 超大带宽:单端口400G专线接入 【AI场景】: 【金融场景】: •WEB3交易所:加密货币私钥和交易签名数据需在传输过程中完全加密,避免被窃取。 •分布式训练:单次训练迭代可能涉及TB级数据•实时推理服务:请求量大的场景(如视频内容生成)需高带宽支撑批量数据传输。•数据同步:多数据中心部署的GPU集群需同步模型权重或训练数据 •证券银行:客户账户数据、交易记录需要通过专线加密传输。 【AI场景】: •模型训练&微调:企业核心机密数据上云训练,传输过程需完全加密 【价值】: 【价值】: •物理层加密保障传输安全:专线MACsec提供物理层加密,避免中间人攻击。 •提升传输效率:同量数据传输时间缩短4倍。 •高性能与低延迟:专线MACsec通过硬件加密芯片实现加密/解密,支持10G以上物理端口,延迟低于1微秒,不降低传输性能。 快速构建稳定、高效的全球组网 持续构建高质量全球网络基础设施 大带宽、低时延、高可靠,满足AI时代的业务发展需求 “一带一路”沿线跨域带宽提升60%+↑*中外跨境带宽由中国联通提供 港日低延迟线路延迟低至38.5ms15%↑ 不同路径间多机房、多设备对称部署,保障端到端高可用 深挖技术,持续提升网络基础设施稳定性和性能 ZooRoute能力全面升级 ZooRoute:基于虚拟网络的链路感知技术UPDATE 基础网络运维痛点 时延劣化:RTT增加导致传输效率下降 端到端QoS提升资源利用率,同时保障AI业务有序混跑 非核心业务占用带宽,影响核心业务 端到端QoS策略,保障AI业务高可靠,提升训练效率 关键问题 不同类型、不同优先级业务混跑,可能带来带宽非预期的带宽抢占,影响核心业务,带来额外成本等。 提升资源利用率 核心业务保障 合理分配带宽比例和限速值,提升带宽利用率,避免资源浪费 针对不同优先级业务设置不同的带宽比例,互不干扰,避免恶意带宽抢占 离线业务 生产业务 测试业务 适用业务场景 🔹跨地域推理部署确保在线高优先级业务质量有保障 🔹跨地域数据同步数据采集、数据标准优先级低 🔹异地运维管控跨地域控制信令的质量保障 离线业务对稳定性要求不高,但带宽占用量巨大,极易抢占核心业务资源 传输效率提升:全球组网产品支持JumboFrame AI时代大带宽传输场景激增小帧效率瓶颈显现 云上-跨域-云下全链路支持JumboFrame 训练场景 推理场景 推理场景 深度洞察:NIS支持TRFlowlog分析 基于TRFlowlog的端到端流量分析 AI训推一体网络关键挑战:突发性大流量 •流量刺客:非预期的突发大流量抢占带宽•问题影响:影响正常业务稳定性,产生大量费用•核心挑战:无法预期,时间短无法抓取问题现场 工作原理 跨地域和专线出方向均支持Qos功能但如何找到突发流量的五元组特征? 总结:以云为核心,构建可靠、高效的全球互联网络 全球组网云化高效支撑AI业务快速发展 混合云安全、可靠需持续构建