您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心标准推进委员会]:下一代智算 DC 高速互联 --网络需求白皮书 - 发现报告

下一代智算 DC 高速互联 --网络需求白皮书

AI智能总结
查看更多
下一代智算 DC 高速互联 --网络需求白皮书

--网络需求白皮书 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 项目经理:徐丽华为技术有限公司工作组长:郭亮中国信息通信研究院贡献专家:郭亮中国信息通信研究院王建兵华为技术有限公司孙黎阳华为技术有限公司陈哲华为技术有限公司杨言华为技术有限公司陈祥玉华为技术有限公司吕京飞华为技术有限公司孙文昊华为技术有限公司江伟玉华为技术有限公司黄宏毅华为技术有限公司王慧田华为技术有限公司杨昕磊华为技术有限公司林栋华为技术有限公司叶尧华为技术有限公司陈晖华为技术有限公司孙光辉华为技术有限公司王浩华为技术有限公司 孙传昊华为技术有限公司谢丽娜中国信息通信研究院李佳媛中国信息通信研究院何泽坤腾讯计算机系统有限公司张玓北京快手科技有限公司戚宝侃北京快手科技有限公司何宗应BroadcomInc.石兴建比特科技(深圳)有限公司李和松中兴通讯股份有限公司张征中兴通讯股份有限公司尧光兰洋(宁波)科技有限公司林子杰兰洋(宁波)科技有限公司郑嘉琦南京大学孙小虎中国移动云能力中心 前言 人工智能大模型的迅猛发展正以前所未有的速度重塑算力格局。千亿乃至万亿参数模型的训练与推理,催生了GPU/TPU等XPU集群向数十万乃至数百万卡规模演进,其核心瓶颈已从单点算力转向集群互联网络。传统数据中心网络在带宽、延迟、扩展性和能效上遭遇严峻挑战。AI训练特有的AllReduce,MOE等高密度、低延迟、高同步性通信模式,要求网络具备微秒级低延迟、超高吞吐、有界性能,智能拥塞控制和高安全。同时,混合负载、云边协同与绿色低碳需求叠加,使得网络成为制约智算中心效能的“生命线”。面向未来,构建高带宽、超低时延、高可靠、高能效且智能可管,安全的下一代高速互联网络,已成为释放AI算力潜能、赢得智能时代竞争的关键所在。 本白皮书旨在系统性地阐述下一代智算数据中心网络的核心需求、关键技术挑战与未来演进方向。其目的在于凝聚产业共识,为网络架构师、设备制造商、芯片研发者及云服务提供商提供权威的技术参考与规划指南,并促进产业链上下游协同,推动技术创新,共同构建面向未来的、可持续的高性能智能计算网络底座,为全球AI发展做出贡献。 目录 一、智算网络发展现状与趋势(全球).............................2二、AI大模型演进对智算网络需求综述.............................5三、智算业务对网络的新重点需求.................................73.1新拓扑需求.............................................73.2P2MP通信需求.........................................163.3高可靠需求............................................193.4高精度时间同步需求....................................213.5高安全需求............................................23三、传统网络需求的新变化.....................................254.1大带宽互联需求........................................254.2低时延需求............................................274.3运维/检测.............................................29五、总结与展望................................................31 图目录 图1AI大模型高并行处理.....................................6图2AI算力需求趋势.........................................8图3Fat-TreeTopology.......................................8图4DragonflyTopology......................................9图5Dragonfly+Topology....................................10图6Dragonfly+与Group-WiseDragonfly+在绕行路径的对比.....11图7扁平化拓扑设计.........................................12图8BSTTopology...........................................13图9DeepSeekMoEGating....................................17 一、智算网络发展现状与趋势(全球) 随着DeepSeek和GPT5大模型的相继发布,大模型呈现出超百万亿参数、长序列、多模态、长思维链以及物理AI几大明显的发展趋势。可以预见的是,未来几年AI对集群算力的需求仍将保持高速增长的态势,对规模和效率的极致追求成为智算网络发展的内在驱动力。 智算网络发展至今,以太网技术在标准组织(如UEC超级以太网联盟)和产业上下游的共同努力下,在与Infiniband技术的竞争中取得明显的优势,已经成为万卡以上集群ScaleOut网络的首选,并开始向ScaleUp网络场景延伸。与此同时,以NVL72为代表的超节点在训练和推理场景展现出明显的业务价值,智算网络中的ScaleUp场景成为业界关注的焦点。以AMD为首的UALink1.0协议规范的发布以及博通SUE技术架构的公开为开放式ScaleUp网络注入新的发展动能。国内各种Link小生态也蓬勃发展如UB-mesh,ETHLink,ETH-X,ETH+等,ScaleUp网络正式进入“总线网络化”和“网络总线化”技术路线的混战时期。 纵观当前国内外人工智能产业发展对网络互联的内在需求,AI负载及智算网络呈现出如下几个明显的发展趋势。 1.百万卡级ScaleOut和千卡级ScaleUp成为产业界关注焦点 从AI大模型本身的发展趋势来看,海外AWS/Oracle/Meta领衔数十万卡智算集群的建设,业界对ScaleOut网络规模的预期被锚定在百万卡级,相关能源和技术层面的挑战正在被突破。 NVL72/CloudMatrix384超节点对推理性能和集群算力利用率提升效果明显,千卡以下规模的超节点成为行业头部竞争焦点。在光互联技术的加持下,ScaleUp网络正在突破单机柜的物理限制,向着多 机柜高速互联方向扩展。 2.大模型业务的分布式、稀疏化、服务化,要求智算网络具有更强的AI亲和特性 以Deepseek为代表的稀疏大模型引领更多的大语言模型的发展趋势,专家并行(EP)的广泛使用导致了通信对象的不可预期,并导致流量呈现高度动态性;推理业务相比模型训练,通信量减小至M级;AI过程被进一步拆解,诸如PD分离、Attention/MOE拉远等多种业务架构导致通信过程呈现差异性;不同模型的部署策略异构,对拓扑的需求出现差异、可调整;大模型业务的服务化,让更多的数据和请求进入云端,同时多个客户请求在数据中心被统一处理,对隔离和隐私都提出了挑战。这些和AI业务强相关的特性,都对智算网络及互联协议提出了新需求。 3.NPO/LPO/CPO/OCS等光互联与交换技术价值凸显,光电融合成为智算网络的发展方向 智算集群追求极致的性能和规模,当前以112G/224GSerdes为基础的电互联网络已经初现IO性能和集群架构的双重瓶颈,加速了XPO技术的产业应用节奏。以NPO/CPO光电共封装、OCS光交换为代表的光互联技术正在改变传统网络设备的形态和网络架构,光电融合成为智算网络未来发展的新方向。 4.AI负载展现出对规模、带宽和延迟性能的极度贪婪,智算网络从单点优化进入体系化创新发展的快车道 谷歌AI基础设施总经理AminVahdat在HotInterconnect2025会议上指出:“我们正处于分布式计算的第五个历史性时刻,生成式AI对连接性能的需求跃迁意味着我们需要重新审视未来的网络”。伴随着GenerativeAI发展不足五年的时间,算力需求保持每年10倍 的增长态势,网络带宽需求迅速从百G时代攀升至Tb级时代,延迟需求也相应提升了十倍甚至更多。更为重要的是,网络的设计目标已经从追求规模等单维度指标发展为“既要又要”的综合指标体系。如何在满足规模的前提下进一步满足超高带宽和超低延迟的需求成为下一代智算网络发展的关键命题。 5.AI对网络的影响力已经外溢至数据中心外,AIWAN成为新的热点 2023-2024年间,在AI业务的驱动下,Meta骨干网流量呈现出30%以上的高增长,且AI流量占比已经超过了传统流量。由于国内外大模型应用的用户渗透率和技术发展阶段的差异,当前AI负载对国内运营商和云厂商广域网的实质性影响相对而言并不明显。随着跨DC联合训练、数据快递和推理下沉等场景逐渐规模商用,AI对广域网的中长期影响不能被低估,预计广域网将以此为契机迎来新一轮架构升级的周期。在此背景下,AIWAN成为运营商、Hyperscaler以及设备制造商共同关注的焦点。 6.智算标准和技术联盟推动开放互联取得实质性进展,行业进入多联盟赛马新阶段 2025年上半年,以UEC和UALink为代表的智算互联技术联盟标准的发展标志着开放互联生态取得了实质性进展。英伟达也采取了一系列部分开放的措施如NVLinkFusion和Spectrum-X生态合作伙伴计划相继启动。在ScaleUp、ScaleOut、ScaleOutside这三个智算网络最重要的细分场景,行业均进入了多生态赛马的关键阶段。在ScaleUp场景,UALink、SUE和NVLinkFusion成为主要的可选技术路 线 ; 在ScaleOut场景 ,UEC、高通量 以 太 网ETH+和英伟达Spectrum-X/IB正在各自的生态内产生着影响;在新兴的ScaleOutside 场景,以博通Jericho4和英伟达Spectrum-XGS为代表的产业成果也相继发布。总体而言,开放标准和产业生态形成了良性的协同和互利,这为智算网络下一阶段健康可持续的发展奠定了基础。 二、AI大模型演进对智算网络需求综述 基于以上主流趋势及AI大模型持续升级,因模型性能与参数规模呈超线性关系,模型参数规模在指数级增长(从千亿级向万亿级突破)、训练数据量爆发式扩张(单模型训练数据达EB级)。AI头部厂商如OpenAIchatGPT,谷歌Gemini、Deepseek等模型持续扩容,推动了对更高性能计算平台的需求。这促使AI系统架构向Scaleup(纵向扩展)转变,即通过增强单节点内的计算能力而非单纯增加节点数量来提高整体性能。在Scaleup架构下,数百乃至上千个GPU或TPU被紧密集成于单一或少量节点内,以实现更高效的并行计算。 来源:Huawei,2024 在此背景下,互联网络成为影响AI训练效率的关键因素之一。若互联网络无法满足高吞吐、低时延的通信需求,将导致计算单元长时间处于等待状态,严重制约训练任务的收敛速度与资源利用率。整体来看: 1)为支持海量参数与中间结果的高效传输,互联网络必须具备大带宽能力。高带宽互联能够保障模型训练过程中梯度、激活值等关键数据在节点间的快速传递,避免因带宽瓶颈