行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

探索昇腾910C 十万卡集群

2025-07-02 未知机构章嘉艺

升腾910系列技术发展及市场应用总结

1. 升腾910系列技术发展历程

第一代升腾910架构（2019年）：采用1+1+4架构，包含GPU计算带（456平方毫米）、IO带和四个HBM2模块，通过空硅片保证结构平衡。
2023年升腾920B架构：推出4款产品，分为两种架构：
- 1+4架构：集成计算带与通信模块，4个HBM及两侧浅灰色HBM，深灰色空硅片保证应力平衡。
- 优化1+1+4架构：计算带面积缩小至390平方毫米，HBM升级为HBM2E。
2025年升腾920C架构：由两颗920B垂直拼接形成2+8架构（2个GPU带+8个HBM），GPU带间通过绿色载板走线互联，通信性能：
- 单向传输速率270GB/秒，支持UB（392GB/秒双向）和RDMA（约25GB/秒）协议。
- 8个HBM总容量128GB，整体性能较920B翻倍。

2. cloudMatrix384超级节点分析

组成逻辑：华为以集群策略弥补单卡不足，384个GPU与192个CPU形成高速网络，单卡推理吞吐量2300TOKEN/秒，集群性能对标英伟达NVI72。
技术参数：机柜内及机柜间带宽、时延表现优异。

3. 多卡组网技术与架构

UBMesh协议：替代Nvlink，支持GPU/CPU/交换机统一接口互联，全铜连接，GPU支持72路UB接口，交换机芯片支持512路。
嵌套式组网层级：
- board级：8卡星型网络，28组铜线。
- rack级：8板组成机柜，64卡448组铜线。
- Pod级：16机柜横向纵向互联，1024卡铜线。
- superPod级：8Pod通过HRS连接，近9000卡，光模块连接。
10万卡组网实现：
- 通过RDMA连接384超级节点，最大支持16.5万GPU。
- 通过VPC连接数据中心，单节点400Gbps带宽，支持模型部署、监控调度等。

4. 升腾920C应用与落地情况

企业与科研应用：新浪、面壁智能、微博等支持搜索引擎、大模型训练，覆盖视频、科研、音频等多类型需求。
数据中心与集群建设：
- 华为云在芜湖、贵安等地部署384超节点数据中心，后续可实现16.5万卡集群。
- 新疆江川科技采购4500台920C2（9000卡），并行科技算海支持6-10万卡集群。
- 甘肃规划10万卡算力集群（2027年建成），截至2025年6月，生成920C出货量至少五六万颗（华为云2万颗，新疆1万颗，鹏城实验室2万卡集群）。

5. 升腾920D展望

架构与发布时间：推测由两颗920B拼接升级成四颗带结构，预计2025年底发布，HBM搭配灵活（四/六/八颗），B端应用或推多版本芯片。

1、升腾910系列技术发展历程 ·第一代升腾910架构：2019年推出的第一代升腾910芯片采用1+1+4架构，包含一个GPU计算带（橘色部分）、一个IO带（蓝色部分）和四个HBM2模块。为保证结构平衡，设计了两个深灰色的空硅片。该代芯片计算带面积为456平方毫米。 ·2023年升腾920B架构：2023年推出的升腾920B有4款产品，对应两种架构形式。其一为1+4架构，中间为集成计算带与通信模块的完整计算带，包含4个HBM及两侧浅灰色HBM，深灰色空硅片用于保证结构应力平衡；其二为类似2019年的1+1+4架构，但模块有所优化，计算带面积从456平方毫米缩小至390平方毫米，HBM从长方形的HBM2升级为更趋近正方形的HBM2E。 ·升腾920C架构升级：2025年正式面向市场的升腾920C由两颗升腾920B垂直拼接形成，采用2+8架构（2个GPU带+8个HBM），两GPU带间通过绿色载板走线互联（未使用硅桥）。通信性能方面，两计算带间单向传输速率为270GB/秒；每个计算带与相邻HBM间带宽为1600GB/秒。通信支持UB和RDMA两种协议，UB协议双向通信速率为392GB/秒（单向196GB/秒），RDMA协议通信速率约为25GB/秒（200Gbps转换后）。8个HBM合计容量为128GB，整体性能较上一代升腾920B实现翻倍。 2、cloudMatrix 384超级节点分析 ·超级节点组成逻辑：华为推出cloudMatrix384超级节点与公司战略发展相关。任正非曾提出，国内芯片问题需用系统性思维解决，在无法获取最先进制程芯片时，华为选择以集群和叠加力量、以量换质的策略，通过计算、存储、传输三维一体的形式，以多卡集群弥补单卡支撑的不足。最新一代生成AI云服务基于cloud Matrix 384超级节点构建，由384个GPU与192个CPU组成高速网络，形成超级AI服务器。其单卡推理吞吐量可达2300TOKEN/秒，整体集群性能可与英伟达NVI72对标。在技术参数上，机柜内及机柜间在读和写时的带宽、时延等速率表现优异。 3、多卡组网技术与架构 ·UB Mesh协议基础：华为UB Mesh（UNIFIEDbus统一总线）是新的通信协议，可与英伟达Nvlink等效，支持GPU、CPU、交换机芯片（LIS/HRS）通过统一接口互联。对比英伟达异构互联系统（CPU与GPU通过PCB板上的Pcie协议互联，GPU间通过Nvlink连接，网卡间通过IB网络或以太网互联，涉及三种通信协议），华为UB网络采用全铜连接（非全光），实物图显示有密集铜线。具体接口容量方面，GPU支持72路UB接口，CPU支持32路，交换机芯片分别支持72路和512路。此外，华为的CPU与NPU分属不同PCB板，支持灵活配置。·嵌套式组网层级：华为采用嵌套式拓扑结构组网，从一维（8卡两两互联）升维至二维（8板组成机柜），最终可扩展为n维（含x、y、z、阿尔法、贝塔、伽马六维）。各层级互联方式如下：board级（板子内部），8张卡两两互联形成星型网络，共需28组铜线；rack级（机柜内部），8个板子组成，同一编号的GPU两两互联，64张卡共需448组铜线；Pod级（机柜间），16个机柜组成，横向和纵向的机柜两两互联（对角线不连接），支持1024张卡铜线互联；superPod级（跨Pod），通过高基数交换机（HRS）连接8个Pod，支持接近9000张卡，此时采用光模块连接。设计逻辑上，短距（板内、机柜内）用铜线降低损耗，长距（跨机柜、跨Pod）用光纤减少高速率、高带宽光交换机使用量。 ·10万卡组网实现：10万卡集群通过两种方式扩展：一是通过RDMA协议（scaleout互联）连接多个384超级节点，最大支持16.5万张GPU互联；二是通过VPC（虚拟私有云）连接数据中心，使用华为晴天网卡，单节点提供400Gbps单线带宽，运行于标准以太网和IP协议，支持模型部署、监控调度、持久存储访问（对象存储、弹性服务、可扩展文件系统）及外部CPU工作负载调用。6月20日华为开发者大会信息显示，基于cloudMatrix384超级节点的新一代生成AI云服务已上线，通过432级节点实现16万卡超算集群，可满足10万亿参数大模型训练需求。 4、升腾920C应用与落地情况 ·企业与科研应用案例：新浪、面壁智能、微博、360、硅基流动、科大讯飞及中科院等企业与科研机构，已使用cloudMatrix384，支持搜索引擎、大模型训练等场景，覆盖视频、科研、音频等多类型大模型训练需求。 ·数据中心与集群建设：华为云在芜湖、贵安、内蒙古等地部署了基于384超节点的数据中心，华为云CEO提及后续可实现16.5万张卡的超大集群。新疆江川科技公告了万卡级计算中心项目，采购4500台生成920C 2（每台支持两卡），共9000张卡。并行科技算海计划一期已落地运营，最大支持6万卡单体集群，二期可容纳10万卡集群。2025年6月甘肃提出建设国产10万卡算力集群规划，预计2027年建成使用。截至2025年6月，生成920C出货量至少五六万颗，其中华为云内部使用至少2万颗，新疆项目使用1万颗，深圳鹏城实验室搭建了2万卡集群。华为云后续建设的数据中心将陆续替换为升腾920C，对其2025年下半年出货量持乐观预期。 5、升腾920D展望 ·架构与发布时间：市场对升腾920D架构有相关推测。此前华为公开四个带合封专利，核心是通过连接实现各带无信号串扰，非针对特定芯片。基于此，推测升腾920D或由两颗920B拼接升级成四颗带结构。时间上，预计2025年底面向市场。HBM搭配数量可灵活选，如四颗、八颗、六颗，取决于场景需求。因华为未来侧重B端，B端垂类大模型参数、精度要求低于通用大模型，对产品性能要求不高，后续或推多版本芯片满足终端应用需求。

点击免费查看完整报告