(2026年1月) 目录 1AI算力架构演进:从芯片堆砌迈向系统级协同...............................................................4 2超节点系统架构设计.....................................................................................................4 2.1芯片:从计算到互联的协同演进.........................................................................6 2.1.1算力芯片的演进........................................................................................62.1.2高速互联技术的突破.................................................................................7 2.2单体超节点与Matrix超节点............................................................................12 2.2.1Nebula单体超节点.................................................................................142.2.2NebulaMatrix集群超节点.....................................................................22 3以超节点为核心:打造AI工厂....................................................................................25 3.1核心理念:从项目到工厂的范式转变................................................................25 3.2构建路径.........................................................................................................26 3.2.1大规模集群网络:突破集群扩展的规模限制.............................................273.2.2软件栈:超节点的“操作系统”..............................................................28 3.3AI工厂的核心优势与商业价值.........................................................................34 4中兴通讯:全栈协同的AI基础设施构建者...................................................................35 5缩略语表....................................................................................................................38 6参考文献....................................................................................................................39 图目录 图2-1 OEX互联示意图.....................................................................................................14图2-2OEX与CableTray方案对比.....................................................................................15图2-3 Scale-Up和Scale-Out融合和独立组网对比.........................................................25图3-1算力仿真平台..........................................................................................................32图3-2 MoEMMA算子算力强度........................................................................................33图3-3 Qwen3-235B不同超节点形态最优切分下各部分耗时.............................................33图4-1中兴通讯:全栈协同的AI基础设施构建者...............................................................36 AI算力架构演进:从芯片堆砌迈向系统级协同 1 随着AI模型参数规模突破万亿量级,算力需求已从单纯的GPU堆叠,转向全维度的系统架构重构。受限于单芯片物理功耗密度、互连带宽与内存容量瓶颈,其算力增长边际效益递减。当前研究与工程实践表明,系统级协同架构(如高带宽域互联)成为突破单芯片性能上限的主要技术路径。 这一转型的根本动因,在于单颗芯片的物理极限已成为制约算力发展的核心瓶颈。当模型规模远超单芯片的算力与显存容量时,传统分布式训练方法面临通信开销剧增、算力利用率骤降等严峻挑战。在此背景下,通过高速无损互联技术,将数十甚至上百个GPU芯片从逻辑层面整合为统一计算单元,对外可视为一台功能极强的“超级计算机”,已成为全球主流AI基础设施厂商与研究机构公认的下一代算力架构核心突破方向。这一架构革新不仅实现算力密度的跃升,更是达成系统级高效协同、降低大模型训练与推理综合成本的关键技术路径。 超节点系统架构设计 超节 点是 通过 高速 互联 协议 与专 用交 换芯 片构 建的 高带宽 域(High-BandwidthDomain),将数十至数百颗GPU芯片在逻辑上整合为统一编址、低延迟、高带宽的协同计算系统。该架构保留GPU的物理独立性,通过统一虚拟内存地址空间与无损互联,实现类单机的编程与调度体验。超节点并非GPU的简单物理堆砌,而是融合多芯片、整机硬件、高速互联与配套软件的集成系统,依托算法仿真、工程设计、软硬联合优化等综合手段,构建的极致协同计算系统。超节点对芯片的算传存基础能力,硬 件设计的集成能力,高带宽高可靠可扩展的互联能力,以及面向底层算法要求的软硬协同能力都提出了极高的要求,需实现端到端全链路的平衡与优化,方能构建真正意义上的最优“单一”算力产品形态——超节点。 为实现这一系统级协同,构建超节点,需要遵循以下四大核心前提: 第一,芯片能力的均衡性。构建超节点芯片需要满足算力、显存与互联带宽的均衡,并非所有的GPU芯片都具备构建超节点的潜力。比如,算力被裁剪的芯片,其计算能力难以匹配高规格的互联带宽,易造成带宽资源浪费;反之,芯片算力充足,但互联总带宽不足、互联链路数量过少,也无法支撑GPU互联规模的扩大,导致算力无法充分发挥。 第二,互联架构的有效性。超节点互联架构需兼顾通信效率、扩展性与场景适配性三大核心要求。原则上超节点内任意GPU间的互联带宽是机间互联的8倍左右,有助于降低通信开销、提高GPU的MFU(模型FLOPs利用率)。而传统总线(例如PCIe)或低容量交换芯片的方案,无法实现真正意义上的全互联(FullMesh)。业界虽有厂商在互联技术上进行创新尝试,如定制拓扑或优化交换路径,但在架构的通用性与灵活性之间仍需权衡。面对不同并行策略带来的差异化通信需求,理想的超节点互联架构需具备自适应能力,以更好支持多样化大模型训练的需求。 第三,内存访问的便捷性。超节点内所有GPU需支持统一内存编址,以支持各种原语级的内存访问,确保超节点的内存访问与单GPU、单服务器保持一致的灵活便捷性。同时,由于GPU品类的特性差别,以及消息大小对并行访问效率的影响,超节点还需同时支持消息语义和内存语义,在编程易用性与数据访问效率之间达到最佳平衡。 第四,超节点架构扩展的原生性。单体的机柜级超节点需具备灵活扩展能力,可平滑扩展为更大的集群超节点(如从128单体超节点可扩展到8192的集群超节点)。与Scale-Out的互联模式不同,集群超节点的互联依旧属于Scale-Up域,且满足任何GPU的带宽是机间互联的8倍。该设计确保面对未来更大参数量模型训练需求或技术演进时,可以实现算力灵活选择,按需配置,最终达到性能和成本的最佳平衡。 下文将从芯片能力,系统及整机设计等维度,阐述超节点构建的基础要求,并深度分析业界构建超节点的技术方向和技术路线。 芯片:从计算到互联的协同演进 算力芯片的演进 单纯堆砌低性能计算单元无法实现算力密度的线性增长。系统性能的增益取决于互联带宽、显存容量与算力的协同匹配,而非单元数量的简单叠加。因此,算力密度并非由芯片数量决定,而是指单位体积内可释放的有效算力。 在机柜功耗和物理尺寸受限的前提下,提升单芯片算力密度是实现超节点极致算力密度的首选路径。英伟达历代架构的演进,正是该理念的典型工程化实践:每一代NVLink互联带宽的倍增,均与算力、显存容量及显存带宽实现同步提升,确保单位互联带宽所支撑的有效算力持续处于饱和状态,避免资源浪费。在此基础上,英伟达通过NVLink-C2C(Chip-to-Chip) 互 联 技 术 , 将CPU与GPU封 装 于 同 一 基 板(Interposer),实现统一内存寻址与高带宽低时延通信,构建逻辑层面的“超级芯片”,完成从“物理多芯片”到“逻辑单芯片”的整合,持续提升芯片级算力密度。 1.对GPU的核心需求:互联先行,算力、显存同步放大 互联可扩展性:NVLink、UALink、SUE、ETH-X等主流互联协议,均需支持千卡级HBD高带宽域的扩展能力。 算力与显存同步升级:互联带宽每实现一倍提升,FP4算力、显存容量、显存带宽完成近乎同比例放大,实现三者与互联带宽的精确匹配。 2.对CPU的核心需求:单核性能和IO扩展能力 单核性能:通过更高的主频、微架构设计优化(核心是提升IPC),将无法并行的控制、预处理、通信框架线程的处理延迟压到微秒级,保障系统调度效率。 IO扩展能力:原生支持更多的PCIe通道数及更加丰富的IO接口类型;通过合理的I/O设计,可在节点内省去PCIeSwitch,降低系统成本。 超节点的极致算力密度,首先要取决于“单芯片有效算力密度”能否随互联带宽线性甚至超线性增长;其次依赖于CPU单核性能与I/O扩展能力的同步提升。唯有GPU/CPU在算力芯片层级完成“带宽-算力-显存”三角协同匹配,整机柜才能用更少芯片、更低功耗、更简拓扑,释放出更高且可持续的有效算力。 高速互联技术的突破 2.1.2 超节点的实现核心在于构建高带宽、低延迟的Scale-Up(纵向扩展)通信域。英伟达率先通过NVLink互联协议与NVSwitch交换芯片的组合,确立了早期超节点的