昇腾 950 NPU 架构白皮书

昇腾950系列芯片是华为面向下一代人工智能应用打造的旗舰级计算芯片，涵盖昇腾950PR与昇腾950DT两款核心产品，基于全栈自主可控的制造工艺和第三代达芬奇（DaVinci）架构，在算力密度、存储带宽及互联拓扑三大维度实现了跨越式升级。

AI子系统: 每个AI子系统包括1个Cube Core和2个Vector Core，支持TF32、FP16、BF16、FP8、MXFP8、HiF8、INT8及MXFP4等多种精度格式。
存储体系: 昇腾950PR单芯片提供最高128GB容量和1.6TB/s带宽，昇腾950DT单芯片提供最高144GB容量和4TB/s带宽。芯片配置128MB容量的L2 Cache。
互联组网: 基于新一代HiLink SerDes技术，单芯片互联带宽高达2TB/s，支持PCIe 5.0 x16和2*400Gbps UBoE。
超节点能力: 支持超128K卡的大规模集群，以高联算比和低时延特性，为万亿及以上参数大模型的规模化落地提供强劲动力。

AI子系统架构演进: 新增HiF8、MXFP8、MXFP4精度格式，Cube Core算力提升4倍，Vector Core算力提升100%，支持SIMD/SIMT混合编程模式，并针对LLM中的关键算子FlashAttention进行深度硬件优化。
存储体系: 采用Chiplet UMA统一内存架构，支持按Way的Cache Lock与驻留策略，L2 Cache性能较上一代提升2倍以上。
互联组网: 灵衢（Unified Bus， UB）互联总线支持端口复用、同步语义和异步语义，支持nD-Mesh、Clos等多种灵活组网。
通信加速: CCU（集合通信计算加速单元）实现计算与通信的深度并行，显著降低对主存的占用及IO调度延迟。
Transformer专项优化: 针对大语言模型（LLM）的关键痛点进行深度硬件优化，结合高效的计算通信并行机制，显著缩短大模型的预训练与推理时间。