核心观点
昇腾950系列芯片是华为面向下一代人工智能应用打造的旗舰级计算芯片,涵盖昇腾950PR与昇腾950DT两款核心产品,基于全栈自主可控的制造工艺和第三代达芬奇(DaVinci)架构,在算力密度、存储带宽及互联拓扑三大维度实现了跨越式升级。
关键数据
- AI子系统: 每个AI子系统包括1个Cube Core和2个Vector Core,支持TF32、FP16、BF16、FP8、MXFP8、HiF8、INT8及MXFP4等多种精度格式。
- 存储体系: 昇腾950PR单芯片提供最高128GB容量和1.6TB/s带宽,昇腾950DT单芯片提供最高144GB容量和4TB/s带宽。芯片配置128MB容量的L2 Cache。
- 互联组网: 基于新一代HiLink SerDes技术,单芯片互联带宽高达2TB/s,支持PCIe 5.0 x16和2*400Gbps UBoE。
- 超节点能力: 支持超128K卡的大规模集群,以高联算比和低时延特性,为万亿及以上参数大模型的规模化落地提供强劲动力。
创新特性
- AI子系统架构演进: 新增HiF8、MXFP8、MXFP4精度格式,Cube Core算力提升4倍,Vector Core算力提升100%,支持SIMD/SIMT混合编程模式,并针对LLM中的关键算子FlashAttention进行深度硬件优化。
- 存储体系: 采用Chiplet UMA统一内存架构,支持按Way的Cache Lock与驻留策略,L2 Cache性能较上一代提升2倍以上。
- 互联组网: 灵衢(Unified Bus, UB)互联总线支持端口复用、同步语义和异步语义,支持nD-Mesh、Clos等多种灵活组网。
- 通信加速: CCU(集合通信计算加速单元)实现计算与通信的深度并行,显著降低对主存的占用及IO调度延迟。
- Transformer专项优化: 针对大语言模型(LLM)的关键痛点进行深度硬件优化,结合高效的计算通信并行机制,显著缩短大模型的预训练与推理时间。