AI智能总结
2025年4月16日英伟达披露,公司的H20被美国列入了限制出口名单,该限 制将造成英伟达55亿美元的减记损失。我们认为,在美国对H20的出口限制下, 国产芯片有望扛下算力需求大旗,替代空间广阔。 H20为中国主流算力芯片,出口限制下国产厂商替代空间广阔。TrendForce集邦 咨询分析师龚明德表示,目前中国市场主要GPU供应仍以NVIDIA(H20)等为主 力,腾讯和字节跳动一直是英伟达在中国市场的最大的两个客户,据Omdia数据, 2024年字节跳动和腾讯分别订购了约23万颗英伟达的AI加速器其中绝大部分 是H20),购买量高居全球第二和第三,仅次于微软购买了48.5万颗英伟达的 AI芯片)。2025年4月2日,《The Information》报道,字节跳动、阿里巴巴集团 和腾讯控股在内的多家中国公司在2025Q1订购了至少价值160亿美元的H20。 基于新型高速总线架构的CloudMatrix 384超节点集群已在芜湖数据中心规模 上线,性能比肩NVL72。4月10日,华为推出基于新型高速总线架构的CloudMatrix 384超节点集群,并宣布已在芜湖数据中心规模上线,预计华为云CloudMatrix384 超节点25H1将有数万规模的上线。CloudMatrix 384实现算力规模达300PFlops, 相比英伟达NVL72的180PFlops提升67%。,在DeepSeek-R1上可比肩H100部 署性能。我们认为目前国产算力不仅仅是在单芯片端逐步缩小与海外厂商的差距, 还在多卡集群能力上加速追赶,国产算力逐步做出性价比,我们认为国产算力的 发展逐步从政策层面过渡到政策与市场客观需求的双重驱动,2025年或将为国产 算力扛下大旗的元年。 华为集群性价比已经有了较大的提升,未来有望不断实现优化。华为25年3月发 布《UB-Mesh——分层本地化的nD-FullMesh数据中心网络架构》论文。UB-Mesh 提出一种分层本地化的多维全网格nD-FullMesh)网络架构,nD全网格拓扑的核 心在于层级结构,从1D( 单内内节点全接))展展到2D( 架架内多内接))、3D 跨架架)、4D( 跨架)),成成多维全网格,nD全网格拓扑减少跳数和光模块使 用,86.7%接)为低成本电缆。华为采用4D全网格拓扑,结合统一总线UB)技 术、全路径路由APR)和64+1容灾设计,最终实现2.04倍成本效率提升、7.2% 网络可用性提升,并在LLM训练任务中保持95%以上的线性展展能力。 周观点:相关标的见尾页。 风险提示:下游需求不及预期、研发进展不及预期、地缘政治风险。 重点标的 股票代码 1、国产算力性价比提升,替代空间广阔 1.1H20出口中国受限,推动国产芯片替代进程 H20为中国主流算力芯片,出口限制下国产厂商替代空间广阔。TrendForce集邦咨询分析师龚明德表示,从AI服务器市场观察,目前中国市场主要GPU供应仍以NVIDIA( H20)等为主力,一位英伟达算卡经销商在)受财联社采访时也表示H20是主流,其次是A100,性价比次之,4090是‘改卡’ 指消费卡用于专业计算)的,综合看不太合适企业。腾讯和字节跳动一直是英伟达在中国市场的最大的两个客户,据Omdia数据,2024年字节跳动和腾讯分别订购了约23万颗英伟达的AI加速器其中绝大部分是H20),购买量高居全球第二和第三,仅次于微软购买了48.5万颗英伟达的AI芯片)。2025年4月2日,《The Information》报道,包括字节跳动、阿里巴巴集团和腾讯控股在内的多家中国公司在2025Q1订购了至少价值160亿美元的H20。 从供应商库存来看,新华三表示H20的国际供应链面临重大不确定性,目前库存已)近耗尽,预计2025年4月中旬将有新的货物出货,但是4月20日以后的供应计划还面临原材料政策变化、运输中断和生产挑战等不确定性。2025年4月16日英伟达披露,公司的H20被美国列入了限制出口名单,该限制将造成公司55亿美元的减记损失。我们认为,在美国对H20的出口限制下,国产芯片有望扛下算力需求大旗,替代空间广阔。 图表1:英伟达GPU参数 1.2多卡集群能力显著提升,华为CloudMatrix 384规模上线 基于新型高速总线架构的CloudMatrix 384超节点集群已在芜湖数据中心规模上线。 4月10日,华为公司常务董事、华为云计算CEO张平安在华为云生态大会2025上公布了AI基础设施架构突破性新进展——推出基于新型高速总线架构的CloudMatrix 384超节点集群,并宣布已在芜湖数据中心规模上线。作为国内唯一正式商用的大规模超节点集群,其可为AI推理提供澎湃充足、即开即用的智能算力,加速千行万业智能跃迁。 图表2:CloudMatrix 384超节点 CloudMatrix 384算力规模相比NVL72提升67%,在DeepSeek-R1上可比肩H100部署性能。根据《科创内日报》,华为云CloudMatrix384超节点25H1将有数万规模的上线。华为CloudMatrix 384在规模、性能和可靠性上对标英伟达NVL72,基于CloudMatrix的昇腾AI云服务,大模型训练作业可稳定运行40天,互联带宽断点恢复在10秒级别。在互联带宽上,超节点网络交换架采用6812个400G光模块,实现2.8Tbps卡间互联带宽。硅基流动已经联合华为云基于CloudMatrix384超节点昇腾云服务正式上线DeepSeek-R1,在保证单用户20TPS水平前提下,单卡Decode吞吐突破1920Tokens/s,可比肩H100部署性能。同时,经过主流测试集验证及大规模线上盲测,在昇腾算力部署DeepSeek-R1的模型精度与DeepSeek官方保持一致。华为公布的数据显示,CloudMatrix 384实现算力规模达300PFlops,相比英伟达NVL72的180PFlops提升67%。 图表3:CloudMatrix 384超节点与NVL72关键性能对比 华为集群性价比已经有了较大的提升,未来有望不断实现优化: 华为25年3月发布《UB-Mesh——分层本地化的nD-FullMesh数据中心网络架构》论文,随着大语言模型LLM)规模展大,传统数据中心面临带宽不足、成本高、可用性低的问题。UB-Mesh提出一种分层本地化的多维全网格nD-FullMesh)网络架构,通过直)接)相邻节点减少数据移动距离和交换架依赖,降低成本并提升性能。UB-Mesh-Pod是其具体实现,采用4D全网格拓扑,结合统一总线UB)技术、全路径路由APR)和64+1容灾设计,最终实现2.04倍成本效率提升、7.2%网络可用性提升,并在LLM训练任务中保持95%以上的线性展展能力。 nD全网格拓扑减少跳数和光模块使用,86.7%接)为低成本电缆。nD全网格拓扑的核心在于层级结构,从1D( 单内内节点全接))展展到2D( 架架内多内接))、3D( 跨架架)、4D( 跨架)),成成多维全网格。从物理映射来看,短距离用电缆1米-XY就是卡间和内间),中距离用主动电缆10米-Z就是rack之间),长距离用光纤100米以上),减少跳数和光模块使用,86.7%接)为低成本电缆。 图表4:UB-Mesh’snD-FullMesh技术及可能的物理映射 图表5:高维拓扑和灵活的带宽分配及不同类型链路的使用估计 从硬件实现来看,核心组件为NPU AI计算单元)、CPU、低阶交换架LRS)、高阶交换架HRS),通过统一总线UB)互联。UB总线支持灵活IO分配和硬件资源池化如CPU与NPU动态绑定)。每架架64个NPU+1个备份NPU,故障时自动切换,仅增加单跳延迟。传统的基于GPU的LLM训练系统通常采用混合互接,PCIe用于CPU-GPU和CPU-NIC互接,NVLink用于服务器内部GPU互接,InfiniBand/RoCE用于服务器间互接。基于UB,只需要设计和实现一个可以在CPU、NPU甚至LRS交换架之间重复使用的UBIO控制器。UB还提供以下三个主要优势:1)灵活的IO资源分配:UB互接与特定用例解耦,可以为芯片内不同类型的IO灵活分配资源,NPU间带宽和CPU-NPU带宽也可以根据具体要求灵活调整,因为它们使用相同的UB链路;2)硬件资源池:UB的点对点通信功能支持硬件资源的高效池化,包括DDRRAM、CPU、NPU和NIC;3)系统优化:统一互接消除了协议转换的需要,显著降低了开销,并简化了驱动程序、通信库和框架等的设计和优化。 图表6:UB-Mesh的主要构建模块 图表7:统一总线互接VS传统混合互接 从UB-Mesh的整体架构设计来看,按照nD-FullMesh拓扑实现了一个UB-Mesh-Pod。在每个架架内创建一个2DFullMesh,并将其展展到架架之外的另一个2D-FullMesh,从而产生4D-FullMesh。架架的核心由8个NPU内组成,每个内包含8个NPU。架架内64个NPU互接,成成2DFullMesh,确保NPU到NPU的高带宽。由于UBIO控制器也具有路由能力,因此每个NPU都充当路由器,并在此架构中启用间)路由。除了NPU之外,架架还包括专用的CPU内,与CPU和NPU位于同一内上的传统设置不同,这里它们是分开的。CPU通过交换架接)到NPU,实现灵活的CPU/NPU比例,并支持CPU/NPU/DDR资源池,以提高资源利用率。该架架配备多个背内交换架,用于管理架架内和架架间的接)。这些交换架采用低基数设计称为LRS),在降低成本的同时确保设备间的无阻塞通信。总体而言,这些背内交换架输出四路UB x256 IO。两个维度接)四个相邻的架架,构建架架间FullMesh,考虑到AEC的覆盖范围,这是最佳点。由于每个架架有64个NPU,每个Pod有16个架架,因此一个4D-FullMesh UB-Mesh-Pod总共包含1024个NPU。 进一步构建UB-Mesh-SuperPod,它可以容纳多个UB-Mesh-Pod。考虑到在当前的云场景下,中小型LLM训练工作负载可能不会消耗整个SuperPod,华为选择在Pod级别的互接中采用对称的Clos拓扑,而不是继续使用FullMesh。这样的设计允许云管理器根据消费者的需求灵活地划分SuperPod,并保证每个划分域的带宽,使用高基数Pod开关HRS)接)SuperPod中的每个架架,可展展至8KNPU。最后,SuperPod中的架架还通过UB交换架或位于CPU内上的NIC接)到大规模DCN,DCN交换架使用Clos拓扑进行组织可以展展到100K NPU或更多。 图表8:UB-Mesh架构设计 图表9:UB-Meshrack的硬件实现 UB-Mesh的4D-FM + Clos架构CapEx显著降低,OpEx减少约35%,成本效率提升2.04倍: 华为比较了不同的架架内网络架构,与Clos架构相比,2D-FM架构实现了93.2%到95.9%的训练性能。1D-FM-A架构的性能下降较低,与2D-FM相比,LLAMA2-70B的性能提高了2.44%。对于其他参数较多的模型,改进幅度小于1.6%。由于架架间带宽更高,与2D-FM架构相比,1D-FM-B架构的性能提高了3%以上,但改进仍然微乎其微。对于8K到32K的序列长度,2D-FM架构实现了95.5%的性能,略低于1DFM-A 98.1%)和1DFM-B 99.2%)。对于64K到 10M 的序列长度,与Clos架构相比,2D-FM架构实现了95.0%的性能。与Clos相比,2D-FM架构提供了类似的训练性能性能差距在7%以内),硬件成本要低得多。 华为使用内部数据估算资本支出成本,包括NPU、CPU、LRS、HRS、电缆和其他模块的成本,并在不同的架构之间进行比较。UBMesh的4D-FM+Clos架构与2D-FM+x16( 表示每个NPU