龙岗数据®携手中国电信基于昇腾384超节点圆满达成深圳首个华为超节点验收里程碑 近日,深圳首例昇腾384超节点算力集群在深圳福田河套建成并正式投用,深圳市龙岗区数据有限公司负责完成了其中的384超节点验收测试,基于昇腾AI基础软硬件和openEuler操作系统获得了和设计时指标相一致的测试结果。继2025年9月以上海练秋湖384超节点环境进行验收测试后,龙岗数据公司还测试了广东韶关电信384超节点环境,两次测试均获得了一致的测试结果,创造了384超节点在深圳首例商用的验收测试纪录。 引言 近年来,随着数字化创新的深入推进,各行业正从传统业务向大数据、人工智能等新型应用转型。数据中心需要承载参数量从百亿向万亿跨越的大规模模型训练任务,同时面对 PB 级海量数据的高效吞吐和复杂的 I/O 、计算调度,这对基础设施提出了极高的性能和稳定性要求。 架构创新 概述 超节点是通过高速互联协议将AI处理器组成更大内存空间的系统。要成为实用的超节点系统,必须同时具备“三大核心能力”:大带宽、低时延、内存统一编址。其中,大 带 宽 与 低 时 延 是 突 破 设 备 间 通 信 瓶 颈 的 基 础 ; 内 存 统 一 编 址 则 是 实 现 “ O n eNPU/GPU”统一编程与调度的必要条件。 为应对上述挑战,华为提出了昇腾384超节点架构。昇腾384超节点是专为大模型时代设计的高性能 AI算 力 基 础 设 施 , 通 常 基 于 华 为Atlas 900 A3 SuperPoD 构建,通过规模化的硬件整合和创新的互联技术,解决了传统集群在大模型训练时的效率瓶颈。本白皮书基于龙岗数据对该平台的验收测试结果与工程经验,呈现技术细节、测试方法、结果映射与落地建议。 昇腾超节点系统创新应用全总线架构,采用高速互连技术将384张910C智算卡紧密耦合形成大型算力单元,还消耗了3168根光纤,6912个400G光模块。该架构在大幅降低模型并行通信时延的同时,还需要解决好资源调度与并行策略设置复杂性变高的问题;需要针对不同业务场景的资源和并发策略进行灵活设置,才能最大限度发挥算力单元整体性能,将算力单元与大模型的亲和度提升至最佳。 系统级统一编址:通过硬件与固件层面的协同,使得不同 NPU 间支持统一的内存编址与访问模型,降低分布式编程复杂度,实现“一机视为一个 NPU 池”的效果。 体系结构要点 硬件构成:基于 Atlas 900 A3 SuperPoD 的计算单元,单台服务器配备 8 个昇腾 NPU ;整套超节点由多台此类计算节点、灵衢总线板、IO 框、CPU 抽屉等组成。整机采用 8U 机框、支持 19 英寸机柜安装,机内采用正交盲插架构以提高维护性与可扩展性。 架构创新带来的系统级效益 互联创新:在超节点内部采用灵衢总线与全光互联实现全连接拓扑,提供 NPU 对等互联能力;跨超节点采用 400Gbps/NPU RoCE或更高带宽方案作为异构互联保障。超节点内部互联带宽相比传统8 卡服务器实现了数量级提升。 通信瓶颈缓解:通过更高的内部互联带宽与低时延通信,显著降低分布式训练中通信占比,提升整体加速比。 显存与算力资源池化:统一编址与对等互联使得训练任务能够跨NPU 调度显存资源,支持更大模型或更高并发的并行策略。 计算与主机耦合:整机配套华为鲲鹏 920 系列 CPU,支持高核心数与 DDR5-5200 内存,从而在主机内存与 NPU 之间提供更高的 I/O吞吐能力,优化 D2H/H2D 路径。 运维与可扩展性:模块化机架与标准化接口降低维护成本;全光互联与灵活组网提升系统的扩展能力。 测试方法与评测体系 为了全面验证昇腾384超节点平台的性能,测试体系涵盖了从基础硬件到大模型应用的多维度指标,具有体系化和全面性的特点。 测试体系概览 测试环境部署了 4 台和 8 台 Atlas 900 A3 SuperPoD 计算节点,所有节点通过灵衢总线或光纤全互联,并挂载 NFS-Turbo 或高性能文件系统(HPFS)共享存储,亦可使用本地 NVMe 存储。测试体系主要包括以下核心模块: 1.芯片基础性能测试 (D2H/H2D、D2D、P2P、FP16算力、功耗、ROCE、集合通信、CPU/存储基准等)——工具链:ascend-dmi、SPECint、FIO、mpirun/MPICH 等。 D2H指从NPU到系统内存的带宽测试,D指NPU,H指主机内存。H2D和D2H一样,只是方向是从主机内存到NPU。ROCE用于超节点之间的通信方式。CPU性能是由SPECINT工具来测试的,存储由FIO工具测试,包含本地盘存储和数据盘存储。其中D2H、H2D、P2P测试的是灵衢(UnifiedBus)的互联带宽。 2.多机模型训练测试 在 8 台 Atlas 900 A3 SuperPoD 上,以 Qwen3-30B-A3B 等模型完成从单机验证到多机联调的全流程训练测试。流程包括 Docker 环境准备、MindIE 部署、数据集准备、权重转换与训练脚本执行。 3.单机与多机模型推理测试 选用 Qwen3-235B、Qwen3-Coder-480B、DeepSeek 等模型,评估推理吞吐与延迟;单机通过容器部署并校验;多机通过 MindIE或 vLLM 做协同联调。 具体步骤包括拉起docker服务,修改相应配置参数,包括https、TLS、NPU DeviceID、模型名称、模型路径等,启动模型服务,最后通过curl命令可以得到相应的模型推理结果。多机推理如果使用MindIE框架,需要至少8台计算节点,2台通算服务器,如果没有上述硬件条件,可以使用vLLM推理框架,测试步骤是先把所有服务器的单机推理流程跑通,然后进行多机联调测试。 4.文生图推理测试 以 Qwen-Image 为代表的多模态模型,验证生成质量与工程化稳定性。测试流程首先通过Docker容器映射与MindIE服务完成模型加载及服务启动;随后部署推理代码,配置Python依赖环境并完成Diffusers 库的适配性修改;最后执行推理脚本,成功输出测试图片。 测试目标与度量指标 本次测试围绕大规模分布式训练与推理场景,同时覆盖芯片基础性能、通算、智算、网络与存储等关键模块,系统评估昇腾384超节点在高并发、高带宽通信条件下的性能表现与扩展能力。结合功耗与稳定性指标,进一步验证其在业界流行大模型下的工程可用性与运行可靠性。 计算性能:FP16 浮点算力、Tokens/s (表示模型在推理阶段单位时间内生成的 Token 数量)、首Token时延(TTFT, Time To FirstToken)、单Token生成时延(TPOT,Time Per Output Token)等。 带宽/时延:卡内/卡间/跨节点 P2P 带宽(GB/s)、集合通信延时(ms)。 可靠性与能效:NPU/机箱功耗(W)。 测试环境部署架构 本次测试环境采用4个和8个Atlas 900 A3 SuperPoD计算节点。智算节点上通过物理机运行测试实例,并在所有计算节点上挂载NFS-Turbo共享存储或HPFS共享存储存放模型权重等数据,或者使用本地NVMe存储。 基于龙岗数据的测试方案 件,集成密度高,易维护。384超节点服务器中还搭载了华为鲲鹏920系列处理器,具有高达80个核心,且支持超线程。华为鲲鹏可扩展处理器通过创新架构实现了每个时钟周期更高的指令处理能力,支持DDR55200内存,有效提升了内存带宽与速度,并通过灵衢互联实现了更高的I/O带宽。通过与强大的生态系统相结合,昇腾AI处理器能够帮助用户构建更加高效的AI基础设施。384超节点的基础云平台和openEuler操作系统全面兼容Linux,在大规模部署能力、训练和推理性能、高并发推理等方面达到了全球领先水平,可以高效完成训练、推理等各类任务。 384超节点解决方案之所以能够在龙岗数据主导的验收测试中顺利通过,主要源于其对于最新智算硬件服务器产品的部署、测试、应用,以及在相关软件层面的丰富经验。华为384超节点Atlas 900 A3SuperPoD实现了处理能力的大幅提升,在训练、推理、视频解码、深度学习等场景下的性能更是有了突飞猛进的增长。此外,其计算节点对于模型训练的性能和能效进行了专门设计,确保用户能够在限定条件下获得最优模型训练表现。 整机为8U机框,支持标准19英寸机柜安装。整机结构设计采用正交盲插架构,集成CPU抽屉、NPU抽屉、灵衢总线板、IO框等关键部 核心技术优化与联合贡献 针对上述软硬件平台的验收测试内容,龙岗数据、中国电信与华为合作进行了多项深度优化。首先对芯片基础性能测试进行了调优,确保性能测试的结果达到接近理论值的最优水平,并测试了更加严苛的场景。在通信层面,在点对点测试中得到了NPU级别的测试结果,不仅测试了超节点服务器内的NPU点对点通信,还测试了跨服务器的NPU点对点通信;同时对超节点的ROCE测试结果也进行了调优,得到了接近理论值的结果。最终,所有芯片基础性能测试都达到了实际可以测试到的最佳性能。 试,不仅测试了384超节点的智算能力,还覆盖了通算和存储能力。SPECCPU测试不仅覆盖了超线程关闭的场景,还测试了超线程打开的情形,并且和华为合作,在编译器层面做了优化,得到了更好的结果数据。FIO存储测试则基于华为提供的脚本,不仅覆盖了本地存储,还测试了网络存储。 三方对于模型测试的内容达成了一致,重点测试了模型训练、模型推理、文生图等当前流行的测试内容,而且还完成了难度较大的多机训练和多机推理测试。 此外,根据龙岗数据的建议,测试方案中增加了SPECCPU和FIO测 多机模型训练 在多机模型训练场景中,本次测试选取 8 台昇腾 Atlas 800T A3 训练服务器组成分布式训练集群,基于昇腾 AI 软硬件栈与 openEuler操作系统环境,对 Qwen3-30B 模型开展全流程分布式训练验证。训练过程中采用数据并行与模型并行相结合的混合并行策略,并配合混合精度与梯度累积机制,以提升算力利用率并优化显存占用; 各节点之间通过高速灵衢总线进行梯度同步与参数更新,依托超节点内部大带宽、低时延互联能力,有效降低了通信开销。测试结果表明,在 8 机规模下训练过程运行稳定,跨节点通信无明显瓶颈,整体扩展效率表现良好,验证了昇腾超节点在 30B 级大模型分布式训练场景中的工程可行性与规模化算力释放能力。 单机和多机模型推理 单机模型推理可以使用Qwen3-235B、Qwen3-Coder-480B、DeepSeekV3.1-684B、DeepSeek-R1-671B-A37B等目前主流的大模型。多机推理如果使用MindIE框架,需要至少8台超节点服务器,2台通算服务器,如果没有上述硬件条件,可以使用vLLM推理框架部署DeepSeek V3.1 W8A8 671B模型。 同时尝试采用了算子融合替换、PD分离调度、KV cache优化、集合通信优化、并行策略优化等多维度的调优策略,不断将吞吐性提升到最大。经充分优化后,DeepSeek 671B模型在多种场景下的单卡吞吐性能较优化前有2.5~4.3倍提升;在保证TTFT为1.28s、TPOT为50ms的服务质量指标下,单卡吞吐达到了2122Tokens/s,较业界前期测试最佳性能提升9.2%。 文生图推理 响应不同复杂度与风格的文本提示词。该能力为实际落地中的智能创作、广告生成、教育培训等多模态应用场景提供了可靠的算力基础,进一步拓展了超节点在AIGC领域的适用边界。 在文生图推理场景中,测试基于Qwen-Image模型展开,全面验证了昇腾384超节点在视觉内容生成任务上的工程化能力。测试通过容器化部署与服务化加载,实现了模型的高效调度与稳定运行;在推理过程中,系统展现出优异的图像生成效率与输出质量,能够稳定 测试数据与作用 训练/推理测试:列出用于训练的样本集