您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中兴]:2025年面向智算场景的高性能网络白皮书 - 发现报告

2025年面向智算场景的高性能网络白皮书

信息技术2025-03-17中兴付***
AI智能总结
查看更多
2025年面向智算场景的高性能网络白皮书

面向智算场景的高性能网络白皮书 编制说明 本白皮书在编制过程中得到了多家单位的大力支持,联合编制单位如下(排名不分先后): 中国联通研究院中国信息通信研究院 V1.0发布时间2025年2月 本文档著作权由中兴通讯股份有限公司享有。文中涉及中兴通讯股份有限公司的专有信息,未经中兴通讯股份有限公司书面许可,任何单位和个人不得使用和泄漏该文档以及该文档包含的任何图片、表格、数据及其他信息。 本文档中的信息随着中兴通讯股份有限公司产品和技术的进步将不断更新,中兴通讯股份有限公司不再通 目录 1前言.................................................................................................................................................12术语和缩略语................................................................................................................................13高性能网络关键需求和挑战........................................................................................................33.1高性能数据中心网络(HP-DCN).......................................................................................33.1.1支持超大规模组网是基础....................................................................................33.1.2超高稳定性是前提................................................................................................43.1.3极致高性能是核心................................................................................................53.1.4多维自动化运维体系是必需................................................................................63.1.5可规模扩展的安全机制是保障............................................................................73.2高性能广域网(HP-WAN).............................................................................................83.2.1有效高吞吐量是焦点............................................................................................83.2.2公平共享高带宽是关键........................................................................................84高性能网络技术架构....................................................................................................................94.1高性能网络技术现状和趋势............................................................................................94.2中兴高性能网络技术架构..............................................................................................105高性能数据中心网络关键技术..................................................................................................125.1超大规模组网关键技术..................................................................................................125.1.1大规模组网交换机:硬件基础,容量速率双升..............................................125.1.2大规模组网路由协议:可扩展快速部署,组播能力提供..............................135.2超高稳定性关键技术......................................................................................................195.2.1故障无感恢复:硬件检测,多级保障..............................................................19 5.2.2链路级可靠:轻量级FEC,链路层重传.........................................................215.2.3端网协同的路径控制:端侧传递需求网络精准控制....................................225.2.4网络隔离与资源保障:网络拓扑隔离,资源合理分配..................................235.3极致高性能关键技术......................................................................................................245.3.1层次化负载均衡:整网规划,局部调优,多粒度负载均衡.........................245.3.2拥塞控制:算法无关,迅捷智能......................................................................255.3.3集合通信卸载:统一编排,轻量传输..............................................................275.4多维自动化运维关键技术:层次化可观测体系,高精度感知..................................295.5可规模扩展安全机制关键技术:零信任模型,轻量级加密,安全会话无关.........325.5.1零信任安全架构..................................................................................................325.5.2可扩展安全协议..................................................................................................336高性能广域网关键技术..............................................................................................................346.1主动拥塞避免..................................................................................................................346.2近源端反馈机制..............................................................................................................346.3端网协同速率协商..........................................................................................................346.4任务式传输及配额调度..................................................................................................346.5基于流的网络监控..........................................................................................................357展望...............................................................................................................................................35 8参考文献.......................................................................................................................................37 1前言 智算场景的普惠化正带来新一轮网络技术的革新浪潮。 随着生成式人工智能的发展,AI大模型参数量从GPT-3.5的1.75亿,到GPT-4的1.8万亿,预计未来GPT-5将达到十万亿参数规模,迅速膨胀的AI模型需要更大规模的算力集群执行训练。AI大模型以GPU集群分布式训练为基础,根据阿姆达定律,串行占比决定并行效率上限,网络成为影响算力的重要因素。AI训练任务的高精度并行协同特性以及超大集群互联吞吐量对网络性能提出了数量级的提升需求。AI大模型训练的时间往往长达数月,也使得网络的长稳运行变得前所有未有的重要。从网络流量模型来看,AI大模型训练流量与通算流量呈现出完全不同的特征,突发的稀疏大流成为网络常态,聚合流量具备波峰波谷效应明显、周期性等特征,也使得很多通用数据中心的网络技术不再适用。HPC同样对网络提出高性能需求,特别是在可扩展性以及分布式资源的高效利用方面,HPC与AI的需求趋同。一般来说HPC对于时延更加敏感,但部分采用并行通信的计算模型,同样也关注长尾时延。 AI和HPC集群规模和服务范围的扩大对广域网传输也提出全新需求,包含数据协同和数据快递两大应用场景。数据协同应用主要面向AI/HPC的分布式协同,例如在跨DC的AI训练过程中的是训前模型和数据上载,以及训练期间数据和状态同步过程;数据快递场景包括数据灾备、大规模科学数