您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:探索昇腾910C 十万卡集群 - 发现报告

探索昇腾910C 十万卡集群

2025-07-02未知机构章***
AI智能总结
查看更多
探索昇腾910C 十万卡集群

1、升腾910系列技术发展历程 ·第一代升腾910架构:2019年推出的第一代升腾910芯片采用1+1+4架构,包含一个GPU计算带(橘色部分)、一个IO带(蓝色部分)和四个HBM2模块。为保证结构平衡,设计了两个深灰色的空硅片。该代芯片计算带面积为456平方毫米。 ·2023年升腾920B架构:2023年推出的升腾920B有4款产品,对应两种架构形式。其一为1+4架构,中间为集成计算带与通信模块的完整计算带,包含4个HBM及两侧浅灰色HBM,深灰色空硅片用于保证结构应力平衡;其二为类似2019年的1+1+4架构,但模块有所优化,计算带面积从456平方毫米缩小至390平方毫米,HBM从长方形的HBM2升级为更趋近正方形的HBM2E。 ·升腾920C架构升级:2025年正式面向市场的升腾920C由两颗升腾920B垂直拼接形成,采用2+8架构(2个GPU带+8个HBM),两GPU带间通过绿色载板走线互联(未使用硅桥)。通信性能方面,两计算带间单向传输速率为270GB/秒;每个计算带与相邻HBM间带宽为1600GB/秒。通信支持UB和RDMA两种协议,UB协议双向通信速率为392GB/秒(单向196GB/秒),RDMA协议通信速率约为25GB/秒(200Gbps转换后)。8个HBM合计容量为128GB,整体性能较上一代升腾920B实现翻倍。 2、cloudMatrix 384超级节点分析 ·超级节点组成逻辑:华为推出cloudMatrix384超级节点与公司战略发展相关。任正非曾提出,国内芯片问题需用系统性思维解决,在无法获取最先进制程芯片时,华为选择以集群和叠加力量、以量换质的策略,通过计算、存储、传输三维一体的形式,以多卡集群弥补单卡支撑的不足。最新一代生成AI云服务基于cloud Matrix 384超级节点构建,由384个GPU与192个CPU组成高速网络,形成超级AI服务器。其单卡推理吞吐量可达2300TOKEN/秒,整体集群性能可与英伟达NVI72对标。在技术参数上,机柜内及机柜间在读和写时的带宽、时延等速率表现优异。 3、多卡组网技术与架构 ·UB Mesh协议基础:华为UB Mesh(UNIFIEDbus统一总线)是新的通信协议,可与英伟达Nvlink等效,支持GPU、CPU、交换机芯片(LIS/HRS)通过统一接口互联。对比英伟达异构互联系统(CPU与GPU通过PCB板上的Pcie协议互联,GPU间通过Nvlink连接,网卡间通过IB网络或以太网互联,涉及三种通信协议),华为UB网络采用全铜连接(非全光),实物图显示有密集铜线。具体接口容量方面,GPU支持72路UB接口,CPU支持32路,交换机芯片分别支持72路和512路。此外,华为的CPU与NPU分属不同PCB板,支持灵活配置。·嵌套式组网层级:华为采用嵌套式拓扑结构组网,从一维(8卡两两互联)升维至二维(8板组成机柜),最终可扩展为n维(含x、y、z、阿尔法、贝塔、伽马六维)。各层级互联方式如下:board级(板子内部),8张卡两两互联形成星型网络,共需28组铜线;rack级(机柜内部),8个板子组成,同一编号的GPU两两互联,64张卡共需448组铜线;Pod级(机柜间),16个机柜组成,横向和纵向的机柜两两互联(对角线不连接),支持1024张卡铜线互联;superPod级(跨Pod),通过高基数交换机(HRS)连接8个Pod,支持接近9000张卡,此时采用光模块连接。设计逻辑上,短距(板内、机柜内)用铜线降低损耗,长距(跨机柜、跨Pod)用光纤减少高速率、高带宽光交换机使用量。 ·10万卡组网实现:10万卡集群通过两种方式扩展:一是通过RDMA协议(scaleout互联)连接多个384超级节点,最大支持16.5万张GPU互联;二是通过VPC(虚拟私有云)连接数据中心,使用华为晴天网卡,单节点提供400Gbps单线带宽,运行于标准以太网和IP协议,支持模型部署、监控调度、持久存储访问(对象存储、弹性服务、可扩展文件系统)及外部CPU工作负载调用。6月20日华为开发者大会信息显示,基于cloudMatrix384超级 节点的新一代生成AI云服务已上线,通过432级节点实现16万卡超算集群,可满足10万亿参数大模型训练需求。 4、升腾920C应用与落地情况 ·企业与科研应用案例:新浪、面壁智能、微博、360、硅基流动、科大讯飞及中科院等企业与科研机构,已使用cloudMatrix384,支持搜索引擎、大模型训练等场景,覆盖视频、科研、音频等多类型大模型训练需求。 ·数据中心与集群建设:华为云在芜湖、贵安、内蒙古等地部署了基于384超节点的数据中心,华为云CEO提及后续可实现16.5万张卡的超大集群。新疆江川科技公告了万卡级计算中心项目,采购4500台生成920C 2(每台支持两卡),共9000张卡。并行科技算海计划一期已落地运营,最大支持6万卡单体集群,二期可容纳10万卡集群。2025年6月甘肃提出建设国产10万卡算力集群规划,预计2027年建成使用。截至2025年6月,生成920C出货量至少五六万颗,其中华为云内部使用至少2万颗,新疆项目使用1万颗,深圳鹏城实验室搭建了2万卡集群。华为云后续建设的数据中心将陆续替换为升腾920C,对其2025年下半年出货量持乐观预期。 5、升腾920D展望 ·架构与发布时间:市场对升腾920D架构有相关推测。此前华为公开四个带合封专利,核心是通过连接实现各带无信号串扰,非针对特定芯片。基于此,推测升腾920D或由两颗920B拼接升级成四颗带结构。时间上,预计2025年底面向市场。HBM搭配数量可灵活选,如四颗、八颗、六颗,取决于场景需求。因华为未来侧重B端,B端垂类大模型参数、精度要求低于通用大模型,对产品性能要求不高,后续或推多版本芯片满足终端应用需求。