您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:UPN512 技术架构白皮书 v1.0 - 发现报告

UPN512 技术架构白皮书 v1.0

信息技术2025-09-23阿里巴巴苏***
AI智能总结
查看更多
UPN512 技术架构白皮书 v1.0

阿里云智能集团 网络研发 目录 1. 术语3 2. AI基础设施网络的发展趋势3 3. xPU Scale up 网络的演进和挑战4 4. 阿里云 UPN512 架构概览6 5. UPN512 系统设计和关键组件8 5.1系统架构8 5.1.1 AI Rack-铜互连紧耦合系统5.1.2 UPN512-单层光互连解耦系统5.1.2.1全光互连5.1.2.2单层千卡域5.1.2.3解耦设计8891212 5.2光互连概览14 5.2.1可插拔光互连⽅案5.2.2⾼密带宽光互连⽅案5.2.3 LPO/NPO场景和⽅案的选择5.2.4 LPO/NPO成本5.2.5互连稳定性1514171819 5.4在⽹计算22 1.术语 2.AI基础设施网络的发展趋势 近年来,随着人工智能(AI)技术蓬勃发展,大模型训练、推理任务对算力、内存的需求呈现指数级增长。为了提升算力,获取更短的训练时间和更高的推理效率,智算集群通过高性能网络进行集群算力的扩展,目前已经从万卡向十万卡、数十万卡级别迈进。为了实现高效的训练推理,业界通常会采用多种并行策略驱动数千甚至数万张xPU进行交换数据,协作完成作业, 这依赖于高性能的网络转发能力。纵观AI基础设施的技术发展,如下几个方面对网络提出新的要求。 模型结构从Dense演进到MoE。大模型经过其初期发展后,在提升模型容量效率和降低计算成本的驱动下,基于MoE(Mixture of Experts)的模型结构逐渐代替Dense模型结构,成为一种趋势。MoE将模型划分为多个独立专家网络,并利用门控机制动态分配输入数据给特定专家进行处理。MOE 通过多个专家并行处理不同的数据子集,然后根据输入数据的特征动态选择最合适的专家输出,在提高模型性能的同时有效地控制了算力成本。从网络视角,MoE模型结构通常采用EP并行(Expert Parallelism),EP并行要求网络超大带宽和超低时延,同时由于更多EP并行域(大EP)会带来计算效率的提升,更大的EP网络通信域成为网络演进的趋势。 从预训练到训推一体。智算集群的算力负载,已经从预训练逐步向训推一体演进,即在同一个网络集群内有离线的模型训练、RL,也会有在线的推理服务,推理场景中也演化出分布式效率优化技术包括PD分离、AF分离、大EP推理等。从网络视角,在线和离线流量共存,不同并行模式,以及不同计算密度负载的分离,都使得网络通信模型更加复杂,对训推一体的网络架构设计提出更高的要求。 通过xPU Scale up扩展提升集群化算力。为了应对模型对算力增长的诉求,算力互联技术同样发展迅速,通过大带宽低时延的网络互联实现集群化的超节点算力提升成为主要趋势,比如NVIDIA GPU Scale up 域已经由原来的8卡风冷系统演进到72卡液冷系统,华为也已经发布了通过UB网络组成的384张NPU超节点。 通过超大带宽超低时延的 Scale up 网络扩展xPU的集群超节点算力是AI底层算力基础设施发展的一个重要方向。本文探讨 xPU Scale up 系统的演进和遇到的挑战,并提出阿里云UPN(Ultra Performance Network)架构设计,面向未来构建“大规模、高性能、高可靠、低成本、可扩展”的 xPU Scale up 系统。 3.xPU Scale up网络的演进和挑战 如上文所述,一方面超大带宽超低时延的 Scale up 网络互联可以有效提升xPU超节点的集群化算力,另一方面MoE模型的发展趋势也对于 Scale up 互连域的扩展提出要求。基于MoE的稀疏模型结构逐渐代替稠密型(Dense)模型结构成为主流的同时,MoE模型的专家 (Expert)数量也越来越大。最早的开源MoE模型Mixtral 8x7B有8个Expert,今年的主流开源模型Qwen3有128个Expert,DeepSeek-v3有256个Expert,Kimi K2 有384个Expert。在MoE模型中,通过大EP方式(即通过更多xPU实现专家并行)来优化模型的训练和推理效率是一个主要的算力效率优化方向,这使得主流算力系统的演进方向都在考虑做更大的 Scale up网络互联域来满足EP的大带宽大规模互通需求。NV已经发布了NVL72,并规划了未来的NVL144和NVL576,华为发布了384颗NPU组成的 Scale up 系统CM384超节点,AMD宣称其下一代芯片的 Scale up 网络互联域将达到256。展望未来,而如何扩展设计构建更大的 xPUScale up 系统,则是xPU算力超节点技术的主要挑战。 目前 Scale up 系统大多采用铜缆互连的方案。基于技术发展的现状,铜缆互连是一种成本相对低,稳定性相对好的互连技术,缺点在于互连距离受限,所以当前业界主要聚焦于利用铜缆在Rack空间内采用高密设计来实现算力的最大化。然而,高密Rack设计使得系统复杂性急剧增加,可靠性受到挑战,系统扩展性有限。面向未来,光互连是更大范围的 Scale up 网络互联的必然选择,然而相比铜缆互连,业界关注的光互连主要有两个挑战,成本和可靠性。 关于光互连的成本挑战。影响 Scale up 系统网络成本的因素有多个,光与铜的互连成本差异是其中之一。首先,架构选择对于系统的网络互联成本有较大的影响,比如基于Switch的交换架构有比较好的通信pattern适配性,从而可以获得更好的性能,缺点是成本相对高,NVIDIA、AMD、华为CM384均采用此路线,无Switch架构的Torus互连可以降低成本,但在性能上有一些妥协,Google TPU采用此路线。其次,未来Scale up和Scale out的继续分离,还是走向融合,对网络成本的影响也不容小觑。最后,我们再来看选择不同互连方案的成本分析,这里建立了一个成本估算的模型,利用业界公开的数据进行分析,比较基于Switch交换架构的几种方案的成本(无Switch架构的“Torus互连+OCS”或者“nD mesh”具有更低的成本,但是部分通信pattern性能不能对齐Switch架构,所以不列入比较)。从成本分析来看:1)铜缆覆盖范围内(64或128 xPU),铜缆方案的整体成本大约是光互连方案整体成本的1/2(按照互连成本+Switch成本的综合),铜缆占优;2)超过铜缆覆盖范围的场景(>128xPU),采用传统单层光互连方案要比2层(铜+光)方案的成本更低。由此可见,为了扩展Scale up 的规模,采用单层光互连是比较好的选择,但是光互连方案的成本仍然相对高,在此基础上如何进一步降低光互连的成本是一个关键挑战。 关于光互连的可靠性挑战。网络系统的可靠性本质上是对网络传输错误的容忍和恢复处理能力,主要分为两大类问题。第一类是对链路信号质量问题产生的错包进行纠错和恢复,这类问题的处理业界有比较成熟的解决方案,比如FEC、LLR进行链路级报文错误的恢复和重传;第二类是对链路故障和交换节点故障造成的inflight丢包进行响应和恢复,这类丢包无法通过FEC或LLR进行恢复,需要端到端的重传机制来恢复。端到端重传与具体GPU架构及其协议实现强相关,所以不在本文中讨论。更核心的问题,当我们在考虑更大规模的 Scale up 系统时,规模变大天然使得这两类错误的发生概率增加,系统的MTBF会显著减小(规模扩大10,MTBF缩小10倍),所以针对大规模Scale up架构可靠性设计的重心应该转移到面向更好容错的系统架构上,并在此基础上兼顾互连本身的可靠性。此外,互连系统的可靠性还需要考虑生产良率和运维代价,实际落地过程中我们看到高密度铜互连的cable tray和连接器在这方面有不小的挑战。基于线上运行大数据统计,铜缆互连的链路故障概率是基于FRO(带DSP)光互连概率的1/6(见下文表6),如何提升光互连链路的可靠性是Scale up系统扩展的另外一个关键挑战。 此外,随着xPU算力和显存HBM的不断扩展,每GPU的 Scale up 带宽也在逐步扩大,比如NIVIDA GPU 的NVLink带宽跟随GPU架构逐代增长,从A系列到最新的B系列,NVLink带宽增长3倍,最新Blackwell系列GPU已经做到1.8TB/s(双向)带宽。大带宽下的内存数据交换需要消耗更多的计算资源,比如DeepEP实现中,网络传输需要占据15%的GPU计算资源。所以,如何设计更好的网络传输语义和在网计算能力,减少网络通信过程中的算力消耗是另外一个xPU Scale up系统设计需要面对的挑战。 4.阿里云UPN512架构概览 如上文所述,随着算力超节点的演进,xPU Scale up 域不断扩展,需要有新系统架构设计来解决上述可能遇到的问题和挑战,包括光互连的成本、可靠性,以及大带宽通信过程中的算力消耗。为此,阿里云提出UPN(UltraPerformanceNetwork)Scale up 网络系统,继承HPN(High Performance Network)Scale out 网络的设计理念,将“大规模、高性能、高可靠、低成本、可扩展” 的设计思路应用到 Scale up 网络域,解耦当前 Scale up 设计对于高密系统(类“小型机”)的依赖。 UPN架构的主要设计基于如下三点: 1、基于High Radix以太网。以太网生态成熟强大,单层设计可以做到最大512 xPU系统(未来支持到1K及以上),规模大、可扩展。 2、采用LPO/NPO光互连。通过光互连实现规模扩展,同时解耦高密机柜依赖(“小型机”->“X86”),降低高密系统高复杂度带来的稳定性和运维挑战。阿里云在光互连方面的技术积累和方案选择,预计实现光互连成本30%以上降低,可靠性提升约3倍以上,使得低成本、高可靠的光互连方案成为可能。 3、基于单层交换的协议设计。单层交换设计可以使网络协议设计尽量简化,在此基础上扩展定义网络通信语义和在网计算,聚焦高性能的网络通信并降低计算资源的消耗。 本文阐述UPN512系统的关键架构设计。 5.UPN512系统设计和关键组件5.1系统架构 5.1.1AI Rack-铜互连紧耦合系统 以NVL72为代表的AI Rack架构充分利用了铜互连高可靠、低成本、低时延的优势,将xPU通过高密线缆组件和交换芯片在机柜内进行互连组网,同时针对这样的高功耗系统配套了高能效的集中供电系统和液冷方案,以机柜为单位可整体交付和部署,是当今主流的超节点系统方案。 AI Rack架构是构建百卡规模超节点的业界常规方案,但是也存在一些问题和局限性: 1、AI Rack 架构基于铜缆互连,由于铜互连需要在一定距离内才能保证性能,因此AI Rack架构需要将算力资源做到极致的紧凑,这样对系统的设计带来了非常大的挑战,比如高密铜互连方案带来的可制造性上的困难,高功率密度带来的供电和制冷方案的挑战,高度物理耦合的系统对于故障率和运维带来的挑战。 2、百卡以上至千卡的scale up域,由于距离限制,铜互连已经无法覆盖,需要考虑光互连的方案。 UNP512利用光互连连接XPU和交换机,通过单层CLOS网络实现512个xPU的全互连(见图4)。xPU芯片和Switch芯片通过光电引擎(OE)实现光电转化,从而利用光纤互连。理论上,光电引擎的具体形态可以是可插拔光模块如FRO(Fully Retimed Optics)、LPO(Linear- drive Pluggable Optics),也可以是近封装光模块NPO(Near-packaged Optics)或是共封装光引擎CPO(Co-packaged Optics),考虑到互连密度、成本、稳定性等因素,LPO和NPO是UPN512系统的优选方案,下文详述。 设备物理形态上,由于光互连打破了距离限制,UPN512可以最大化地解耦设备和机柜,xPU和交换机都能够回归盒式的设备,同时机柜也没有了限制,常规标准机柜即可支持部署。 5.1.2.1全