您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [东吴证券]:电子行业跟踪周报:架构级创新,华为UBMesh直击大模型训练的“通信墙”与成本痛点 - 发现报告

电子行业跟踪周报:架构级创新,华为UBMesh直击大模型训练的“通信墙”与成本痛点

电子设备 2025-05-11 陈海进,解承堯 东吴证券 Bach🐮
报告封面

架构级创新,华为UB Mesh直击大模型训练的“通信墙”与成本痛点-国产算力周报 2025年05月11日 证券分析师陈海进执业证书:S0600525020001chenhj@dwzq.com.cn研究助理解承堯执业证书:S0600125020001xiechy@dwzq.com.cn 增持(维持) ◼面向AI训练集群大规模、高带宽、低成本、高可靠性诉求,华为推出UB Mesh。UB Mesh是一种全新的AI数据中心网络架构。该架构采用的nD-FullMesh拓扑结构,从单板内1D全连接(芯片级互连)逐层递归扩展至跨机柜的4D/5D拓扑,形成了灵活的多维空间聚合。与需要大量交换的Clos架构不同,nD-FullMesh中大多数传输可以在0-2跳内完成,信号传输开销显著降低。此外,nD-FullMesh最大限度地利用了短距离直接互连,1米短距离使用无源电缆,10米中距离使用有源电缆,100米及以上长距离使用光缆。据测算,整个系统中无源电缆消耗量占比达到86,7%,不仅显著降低了交换机和光模块的成本,还提高了系统可靠性。 ◼UB-Mesh统一总线实现了多组件互连与资源动态池化。UB-Mesh的主要组件包括NPU、CPU、低基数交换机、高基数交换机和网卡等。这一系列硬件模块作为UB-Mesh的基础构建块,通过统一总线Unified Bus实现连接。负责AI计算的NPU,以及负责执行主机程序的CPU均配备UB IO控制器。此外为支持机架间CPU-NPU通信,以及为支持Pod级交换,UB-Mesh分别提低基数交换机及高基数交换机。传统的基于GPU的LLM系 统通 常采 用 多 种 互 连方 式 ,如PCIe,NVLink,InfiniBand/RoCE等,而UB-Mesh是通过统一总线UB技术实现所有组件的互连,一方面可灵活分配芯片内不同类型的IO资源,另一方面UB点对点通信能力还可支持DRAM、CPU、NPU等的硬件资源池化。此外,统一互连消除了协议转换的需要,大幅降低开销并简化驱动程序、通信库和框架的设计与优化。 相关研究 《透视大厂AI动态,看好ASIC产业方向》2025-05-05 《碳化硅SiC行业深度:打开AR眼镜新应用场景,半绝缘型碳化硅衬底片放量在即》2025-04-25 ◼4DFullMesh支持下的千卡集群及叠加Clos拓扑互连的8千卡集群。UB-Mesh的机架架构以单机柜64个NPU为核心,通过分层全连接实现高效扩展。每个机架内,8个NPU板各集成8个NPU,形成2DFullMesh互连,确保NPU间低延迟与高带宽通信,同时集成UB IO控制器的NPU兼具计算与路由功能,支持间接通信路径优化,减少广播域冲突;CPU独立部署于专用板卡,通过低基数交换机与NPU动态互连,可实现CPU/NPU比例灵活调整及CPU/NPU/DDR资源池化,提升硬件利用率。机架间通过低基数交换机聚合四路UB x256接口,以无阻塞方式管理跨机架连接,并横向扩展2D FullMesh至相邻四个机架,形成4D层级互连,每个机架含64个NPU,四机架构成Pod后总规模达1024个NPU,可满足大规模LLM训练需求。进一步地,基于千卡规模的UB-Mesh-Pod还可采用对称的Clos拓扑,通过高基数Pod交换机将集群构建成8000卡规模的UB-Mesh-SuperPod。 ◼相同训练基准下,UB-Mesh较Clos实现了2.04倍的成本效益提升。华为基于多个密集模型、MoE稀疏模型对UB-Mesh架构及Clos架构进行了机架内、机架间的性能对比。机架内情况来看,2D-FM架构提供了与Clos架构类似的训练性能(性能差距在7%以内),而且硬件成本要低得多,而2D-FM机架间互连的性能与昂贵的Clos架构几乎相同。此外,UB-Mesh还可以调整机架内/机架间带宽的比例,以匹配某些LLM训练工作负载的特定需求。成本效益方面,华为从系统全生命周期成本角度对UB-Mesh与Clos进行了对比。得益于高性能交换机和长距离光模块的节省,UB-Mesh将系统中网络基础设施成本的比例从67%降至20%,与Clos架构相比节省了98%的高性能交换机和93%的光模块。另外,光模块和交换机使用量的显著减少使运营成本降低了35%。总体来看,UB-Mesh较Clos实现了2.04倍的成本效益提升。 ◼芯片及网络架构创新持续推进,昇腾有望推动产业链相关公司业绩及估值双升。芯片方面,TechPower up报道华为正筹备其专注于训练的昇腾920系列芯片,该芯片将基于中芯国际6nm工艺打造,单卡算力将超过900TFlops(BF16),同时内存也将升级到HBM3,单卡提供400GB/s的带宽。集群方面,华为推出的CloudMatrix 384超节点可以提供300PFlops的密集BF16计算能力,几近GB200 NVL72两倍。硅基流动基于该超节点及SiliconLLM运行的DeepSeek-R1,在保证单用户20TPS水平前提下,单卡Decode吞吐突破1920 Tokens/s,比肩H100部署性能。我们认为在国内算力需求持续高增,而海外算力芯片供应难以持续稳定的背景下,昇腾凭借其算力+网络的全面创新能力,以及领先的技术优势,有望在国内算力芯片需求中获得较大市场份额。国产算力替代趋势下,昇腾芯片、服务器、算力集群也有望打开国产AI服务器零部件的成长空间。 ◼产业链相关公司:中芯国际、华丰科技、南亚新材、芯碁微装、深南电路、兴森科技、欧陆通。 ◼风险提示:供应链波动风险,下游需求不及预期,行业竞争加剧。 免责声明 东吴证券股份有限公司经中国证券监督管理委员会批准,已具备证券投资咨询业务资格。 会因接收人收到本报告而视其为客户。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议,本公司及作者不对任何人因使用本报告中的内容所导致的任何后果负任何责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。 在法律许可的情况下,东吴证券及其所属关联机构可能会持有报告中提到的公司所发行的证券并进行交易,还可能为这些公司提供投资银行服务或其他服务。 市场有风险,投资需谨慎。本报告是基于本公司分析师认为可靠且已公开的信息,本公司力求但不保证这些信息的准确性和完整性,也不保证文中观点或陈述不会发生任何变更,在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。 本报告的版权归本公司所有,未经书面许可,任何机构和个人不得以任何形式翻版、复制和发布。经授权刊载、转发本报告或者摘要的,应当注明出处为东吴证券研究所,并注明本报告发布人和发布日期,提示使用本报告的风险,且不得对本报告进行有悖原意的引用、删节和修改。未经授权或未按要求刊载、转发本报告的,应当承担相应的法律责任。本公司将保留向其追究法律责任的权利。 东吴证券投资评级标准 投资评级基于分析师对报告发布日后6至12个月内行业或公司回报潜力相对基准表现的预期(A股市场基准为沪深300指数,香港市场基准为恒生指数,美国市场基准为标普500指数,新三板基准指数为三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的),北交所基准指数为北证50指数),具体如下: 公司投资评级: 买入:预期未来6个月个股涨跌幅相对基准在15%以上;增持:预期未来6个月个股涨跌幅相对基准介于5%与15%之间;中性:预期未来6个月个股涨跌幅相对基准介于-5%与5%之间;减持:预期未来6个月个股涨跌幅相对基准介于-15%与-5%之间;卖出:预期未来6个月个股涨跌幅相对基准在-15%以下。 行业投资评级: 增持:预期未来6个月内,行业指数相对强于基准5%以上;中性:预期未来6个月内,行业指数相对基准-5%与5%;减持:预期未来6个月内,行业指数相对弱于基准5%以上。 我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资的相对比重建议。投资者买入或者卖出证券的决定应当充分考虑自身特定状况,如具体投资目的、财务状况以及特定需求等,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。 东吴证券研究所苏州工业园区星阳街5号邮政编码:215021传真:(0512)62938527公司网址:http://www.dwzq.com.cn