行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

中兴通讯超节点技术白皮书

信息技术 2026-01-01 中兴通讯 LLLL

AI算力架构演进：从芯片堆砌迈向系统级协同

AI模型参数规模突破万亿量级，算力需求从单纯的GPU堆叠转向全维度系统架构重构。受限于单芯片物理功耗密度、互连带宽与内存容量瓶颈，算力增长边际效益递减。系统级协同架构成为突破单芯片性能上限的主要技术路径。

超节点系统架构设计

超节点通过高速互联协议与专用交换芯片构建高带宽域，将数十至数百颗GPU芯片在逻辑上整合为统一编址、低延迟、高带宽的协同计算系统。超节点需满足芯片能力均衡性、互联架构有效性、内存访问便捷性、架构扩展原生性四大核心前提。

芯片：从计算到互联的协同演进

算力芯片演进需满足互联可扩展性、算力与显存同步升级等核心需求。英伟达NVLink互联带宽与算力、显存容量同步提升，实现单位互联带宽所支撑的有效算力持续饱和。

高速互联技术的突破

物理层技术选型：以太网物理层SerDes技术迭代迅速，支持多通道灵活绑定，轻松实现TB/s级端口带宽，更契合AI训练对TB级互联带宽的严苛需求。Scale-Up互联协议生态呈现“国际双轨引领、物理层收敛于以太网”特征。
统一内存编址与访问：超节点支持统一内存地址编址，打破硬件孤岛，让所有GPU共享同一地址空间，跨GPU数据无需物理拷贝，通过地址即可直接读写。
在网计算： Scale-Up交换芯片支持在网计算，将All-Reduce操作卸载至交换芯片内部完成，大幅减少节点间消息传递次数，降低通信延迟；在动态MoE模型训练中，将数据复制、加权归约等高负载操作从GPU端卸载至交换芯片，带来显著的带宽节省、尾时延下降、GPU利用率提升与规模扩展能力增强。
Scale-Up可扩展性：需从互联协议、拓扑、物理形态、互联介质四个关键方面考虑，确保未来大规模GPU集群的通信需求。

单体超节点与Matrix超节点

Nebula单体超节点：采用OEX正交无背板互联架构，实现无外部线缆的高密度超节点，提升信号完整性与散热效率。支持单节点内灵活扩展，构建更大规模的集群超节点。
NebulaMatrix集群超节点：通过柜间互联技术构建更大规模的集群超节点，统一满足高带宽互联、全局地址分配、内存语义及消息语义兼容等核心需求。主流采用电交换+光互联架构，基于该技术方案，中兴通讯现有NebulaX32单体超节点可灵活扩展，构建形成NebulaMatrixX256/800集群超节点。

Scale-Up/Scale-Out融合设计

构建Scale-Up和Scale-Out融合的超节点互联网络，统一承载GPU间的所有AI计算通信业务，构建超级算力的集群超节点。这种融合架构不仅能保障集群超节点部署和扩容的平滑性，更能显著降低TCO。

以超节点为核心：打造AI工厂

AI工厂是以超节点为核心，集成全栈软硬件协同能力，实现从数据输入到智能输出的标准化、规模化、自动化生产系统。

构建路径

大规模集群网络：通过Scale-Out网络实现单数据中心内的集群构建，利用光互联技术将多台单体超节点进行逻辑整合，形成Matrix集群超节点；通过Scale-Across网络实现跨数据中心的广域算力互联。
软件栈：超节点的强大硬件能力，需要一套深度协同、全栈优化的软件系统才能被充分抽象、调度与释放。软件栈扮演着超节点“操作系统”的角色，其核心作用在于将离散的高性能芯片、异构内存与高速网络等物理资源，转化为高效、稳定、易用的一体化算力服务。
架构层：基于超节点的标准化与解耦设计，企业可以根据业务规模和模型需求，灵活调整工厂的产能。引入算力仿真平台构建“数字孪生”，在虚拟环境中预先推演不同配置下的性能与成本，精准定位最优方案。

AI工厂的核心优势与商业价值

通过部署经过全栈验证的AI工厂，企业将在战略高度构建起多维度的竞争优势，并在缩短业务上线周期、支持架构平滑演进、优化总体拥有成本、降低系统集成风险四个层面实现商业价值的深度释放。

中兴通讯：全栈协同的AI基础设施构建者

中兴通讯将通信领域的系统工程方法、大规模组网技术及高可靠性设计经验应用于AI基础设施建设，重点解决智算中心在互联带宽、系统稳定性及工程交付方面的技术挑战。作为全栈协同的AI基础设施构建者，中兴通讯的核心能力包括芯片与基础算法、复杂架构设计能力、全球工程交付能力、标准引领与开源开放。

（2026年1月）目录 1AI算力架构演进：从芯片堆砌迈向系统级协同...............................................................4 2超节点系统架构设计.....................................................................................................4 2.1芯片：从计算到互联的协同演进.........................................................................6 2.1.1算力芯片的演进........................................................................................62.1.2高速互联技术的突破.................................................................................7 2.2单体超节点与Matrix超节点............................................................................12 2.2.1Nebula单体超节点.................................................................................142.2.2NebulaMatrix集群超节点.....................................................................22 3以超节点为核心：打造AI工厂....................................................................................25 3.1核心理念：从项目到工厂的范式转变................................................................25 3.2构建路径.........................................................................................................26 3.2.1大规模集群网络：突破集群扩展的规模限制.............................................273.2.2软件栈：超节点的“操作系统”..............................................................28 3.3AI工厂的核心优势与商业价值.........................................................................34 4中兴通讯：全栈协同的AI基础设施构建者...................................................................35 5缩略语表....................................................................................................................38 6参考文献....................................................................................................................39 图目录图2-1 OEX互联示意图.....................................................................................................14图2-2OEX与CableTray方案对比.....................................................................................15图2-3 Scale-Up和Scale-Out融合和独立组网对比.........................................................25图3-1算力仿真平台..........................................................................................................32图3-2 MoEMMA算子算力强度........................................................................................33图3-3 Qwen3-235B不同超节点形态最优切分下各部分耗时.............................................33图4-1中兴通讯：全栈协同的AI基础设施构建者...............................................................36 AI算力架构演进：从芯片堆砌迈向系统级协同 1 随着AI模型参数规模突破万亿量级，算力需求已从单纯的GPU堆叠，转向全维度的系统架构重构。受限于单芯片物理功耗密度、互连带宽与内存容量瓶颈，其算力增长边际效益递减。当前研究与工程实践表明，系统级协同架构（如高带宽域互联）成为突破单芯片性能上限的主要技术路径。这一转型的根本动因，在于单颗芯片的物理极限已成为制约算力发展的核心瓶颈。当模型规模远超单芯片的算力与显存容量时，传统分布式训练方法面临通信开销剧增、算力利用率骤降等严峻挑战。在此背景下，通过高速无损互联技术，将数十甚至上百个GPU芯片从逻辑层面整合为统一计算单元，对外可视为一台功能极强的“超级计算机”，已成为全球主流AI基础设施厂商与研究机构公认的下一代算力架构核心突破方向。这一架构革新不仅实现算力密度的跃升，更是达成系统级高效协同、降低大模型训练与推理综合成本的关键技术路径。超节点系统架构设计超节点是通过高速互联协议与专用交换芯片构建的高带宽域（High-BandwidthDomain），将数十至数百颗GPU芯片在逻辑上整合为统一编址、低延迟、高带宽的协同计算系统。该架构保留GPU的物理独立性，通过统一虚拟内存地址空间与无损互联，实现类单机的编程与调度体验。超节点并非GPU的简单物理堆砌，而是融合多芯片、整机硬件、高速互联与配套软件的集成系统，依托算法仿真、工程设计、软硬联合优化等综合手段，构建的极致协同计算系统。超节点对芯片的算传存基础能力，硬件设计的集成能力，高带宽高可靠可扩展的互联能力，以及面向底层算法要求的软硬协同能力都提出了极高的要求，需实现端到端全链路的平衡与优化，方能构建真正意义上的最优“单一”算力产品形态——超节点。为实现这一系统级协同，构建超节点，需要遵循以下四大核心前提：第一，芯片能力的均衡性。构建超节点芯片需要满足算力、显存与互联带宽的均衡，并非所有的GPU芯片都具备构建超节点的潜力。比如，算力被裁剪的芯片，其计算能力难以匹配高规格的互联带宽，易造成带宽资源浪费；反之，芯片算力充足，但互联总带宽不足、互联链路数量过少，也无法支撑GPU互联规模的扩大，导致算力无法充分发挥。第二，互联架构的有效性。超节点互联架构需兼顾通信效率、扩展性与场景适配性三大核心要求。原则上超节点内任意GPU间的互联带宽是机间互联的8倍左右，有助于降低通信开销、提高GPU的MFU（模型FLOPs利用率）。而传统总线（例如PCIe）或低容量交换芯片的方案，无法实现真正意义上的全互联（FullMesh）。业界虽有厂商在互联技术上进行创新尝试，如定制拓扑或优化交换路径，但在架构的通用性与灵活性之间仍需权衡。面对不同并行策略带来的差异化通信需求，理想的超节点互联架构需具备自适应能力，以更好支持多样化大模型训练的需求。第三，内存访问的便捷性。超节点内所有GPU需支持统一内存编址，以支持各种原语级的内存访问，确保超节点的内存访问与单GPU、单服务器保持一致的灵活便捷性。同时，由于GPU品类的特性差别，以及消息大小对并行访问效率的影响，超节点还需同时支持消息语义和内存语义，在编程易用性与数据访问效率之间达到最佳平衡。第四，超节点架构扩展的原生性。单体的机柜级超节点需具备灵活扩展能力，可平滑扩展为更大的集群超节点（如从128单体超节点可扩展到8192的集群超节点）。与Scale-Out的互联模式不同，集群超节点的互联依旧属于Scale-Up域，且满足任何GPU的带宽是机间互联的8倍。该设计确保面对未来更大参数量模型训练需求或技术演进时，可以实现算力灵活选择，按需配置，最终达到性能和成本的最佳平衡。下文将从芯片能力，系统及整机设计等维度，阐述超节点构建的基础要求，并深度分析业界构建超节点的技术方向和技术路线。芯片：从计算到互联的协同演进算力芯片的演进单纯堆砌低性能计算单元无法实现算力密度的线性增长。系统性能的增益取决于互联带宽、显存容量与算力的协同匹配，而非单元数量的简单叠加。因此，算力密度并非由芯片数量决定，而是指单位体积内可释放的有效算力。在机柜功耗和物理尺寸受限的前提下，提升单芯片算力密度是实现超节点极致算力密度的首选路径。英伟达历代架构的演进，正是该理念的典型工程化实践：每一代NVLink互联带宽的倍增，均与算力、显存容量及显存带宽实现同步提升，确保单位互联带宽所支撑的有效算力持续处于饱和状态，避免资源浪费。在此基础上，英伟达通过NVLink-C2C（Chip-to-Chip）互联技术，将CPU与GPU封装于同一基板（Interposer），实现统一内存寻址与高带宽低时延通信，构建逻辑层面的“超级芯片”，完成从“物理多芯片”到“逻辑单芯片”的整合，持续提升芯片级算力密度。 1.对GPU的核心需求：互联先行，算力、显存同步放大 互联可扩展性：NVLink、UALink、SUE、ETH-X等主流互联协议，均需支持千卡级HBD高带宽域的扩展能力。 算力与显存同步升级：互联带宽每实现一倍提升，FP4算力、显存容量、显存带宽完成近乎同比例放大，实现三者与互联带宽的精确匹配。 2.对CPU的核心需求：单核性能和IO扩展能力 单核性能：通过更高的主频、微架构设计优化（核心是提升IPC），将无法并行的控制、预处理、通信框架线程的处理延迟压到微秒级，保障系统调度效率。 IO扩展能力：原生支持更多的PCIe通道数及更加丰富的IO接口类型；通过合理的I/O设计，可在节点内省去PCIeSwitch，降低系统成本。超节点的极致算力密度，首先要取决于“单芯片有效算力密度”能否随互联带宽线性甚至超线性增长；其次依赖于CPU单核性能与I/O扩展能力的同步提升。唯有GPU/CPU在算力芯片层级完成“带宽-算力-显存”三角协同匹配，整机柜才能用更少芯片、更低功耗、更简拓扑，释放出更高且可持续的有效算力。高速互联技术的突破 2.1.2 超节点的实现核心在于构建高带宽、低延迟的Scale-Up（纵向扩展）通信域。英伟达率先通过NVLink互联协议与NVSwitch交换芯片的组合，确立了早期超节点的

点击免费查看完整报告

你可能感兴趣

中兴通讯超节点技术白皮书

AI算力架构演进：从芯片堆砌迈向系统级协同

超节点系统架构设计

芯片：从计算到互联的协同演进

高速互联技术的突破

单体超节点与Matrix超节点

Scale-Up/Scale-Out融合设计

以超节点为核心：打造AI工厂

构建路径

AI工厂的核心优势与商业价值

中兴通讯：全栈协同的AI基础设施构建者

你可能感兴趣

AI 超节点内存池化技术白皮书

Atlas 900 A3 SuperPoD 超节点安全技术白皮书

Atlas 800T A3 超节点安全技术白皮书

Atlas 800T A3 超节点技术白皮书

中兴通讯B5G技术白皮书

中兴通讯超节点技术白皮书

你可能感兴趣

AI 超节点内存池化技术白皮书

Atlas 900 A3 SuperPoD 超节点 安全技术白皮书

Atlas 800T A3 超节点 安全技术白皮书

Atlas 800T A3 超节点 技术白皮书

中兴通讯B5G技术白皮书

Atlas 900 A3 SuperPoD 超节点安全技术白皮书

Atlas 800T A3 超节点安全技术白皮书

Atlas 800T A3 超节点技术白皮书