AI智能总结
智算网络架构研究——光铜携手共进 通信行业专题研究 评级:强于大市(维持) 证券研究报告行业:通信2025年08月11日 马成龙(分析师)S1160524120005 刘正(联系人) 投资摘要 AI集群网络架构升级,后端组网拉动光模块需求。传统的云数据中心网络流量主要是从数据中心到最终客户,以南北向流量为主;AI集群东西向的通信流量占据主要部分,因此需增设后端网络实现各服务器间的互联,大幅拉动了光模块、交换机、网卡、光纤光缆的需求。当前主流的AI后端网络以IB和以太网方案为主,尽管IB性能更加突出,但综合考虑成本和生态,我们认为 后续以太网方案将逐步占据主导地位。 英伟达GB300出货在即,1.6T光模块需求有望爆发。英伟达GB300有望于下半年出货,相比于GB200NVL72,在交换设备层面GB300NVL72在网卡端和交换机端都做了升级。GB200采用CX7网卡,使用Q3200Quantum-3交换机托盘,其包含2个独立交换机,每个交换机有36个400Gb/s端口;GB300采用CX8网卡,需配置Quantum-X800QM3400交换机,其配有144个端口,每个端口均可提供800Gb/s的连接,需要72个1.6T双端口光模块。因此GB300NVL72在网卡端光模块由400G升级为 800G,交换机端光模块由800G升级至1.6T,带动光模块整体价值量提升。此外,随着互联速率的不断提升,交换机市场规模也有望不断扩大。 自研ASIC加速,有望带动光模块、AEC需求。谷歌、AWS、Meta、微软等均加大对自研ASIC的支持力度,从架构层面看谷歌 TPU连接采用3Dtorus架构和OCS,以增强拓展性和互联效率,我们认为机柜内部连接采用DAC,机柜间连接TPU:光模块 =1:1.5(4096个TPU网络),提高网络层数光模块配比将相应提升。AWS的Trn2在机柜内及网卡端均采用AEC连接,测算Trn2 芯片和400GAEC的数量配比关系为1:1.5。 投资建议:推荐光器件光模块领先企业【中际旭创】【新易盛】【天孚通信】,建议关注【汇绿生态】;此外推荐高速铜缆环 节领先企业【兆龙互连】,建议关注【沃尔核材】【瑞可达】。 风险提示:AI发展及投资不及预期;行业竞争加剧;全球地缘政治风险;新技术发展引起产业链变迁。 目录/Content› 01 AI集群网络架构升级,IB、以太网方案逐鹿 02 英伟达H100、NVL72集群网络架构详解 03 北美头部CSP网络架构 04 投资建议 01 AI集群网络架构升级,IB、以太网方案逐鹿 传统数据中心网络以南北向流量为主。传统的云数据中心网络一般是基于对外提供服务的流量模型而设计的,流量主要 是从数据中心到最终客户,即以南北向流量为主,云内部东西向流量为辅。 传统架构无法承载智算业务。(1)网络有阻塞:传统架构因考虑到并非所有服务器都同时对外产生流量,为控制成本 ,Leaf交换机的带宽存在收敛比,一般上联带宽:下联带宽=1:3。(2)时延高:跨Leaf交换机的两台服务器互访需要 经过Spine交换机,转发路径有3跳。(3)单服务器只有一张网卡,且网卡带宽不够大。 图1:传统网络架构以南北向流量为主 资料来源:百度智能云《智算中心网络架构白皮书(2023)》,东方财富证券研究所 图2:传统网络架构不适用AI计算 资料来源:InfoQ,东方财富证券研究所 AI集群与传统网络的南北向通信流量为主不同,其东西向的通信流量占据主要部分。 AI服务器组网增设后端网络。AI网络集群通信依靠两个互相独立的网络:前端网络负责数据摄取、查询和数据传输训练,后端网络则实现各服务器间的互联。后端网络的增设拉动了交换机、光模块、光纤光缆、网卡等设备的需求。 图3:AI网络架构分为前端网络与后端网络 资料来源:Meta,东方财富证券研究所 RDMA(RemoteDirectMemoryAccess)技术全称远程直接内存访问,传统的TCP/IP网络通信是通过内核发送消息,存在很高的数据移动、复制开销。为了解决网络传输中服务器端数据处理的延迟,开发了RDMA技术,能直接让一台服务器访问另一台服务器的内存数据,无需通过操作系统内核。RDMA技术显著降低了网络通信的时延,并且提高了通信带宽,已在智算领域广泛应用。 图4:RDMA和传统TCP/IP比较 资料来源:华为官网,东方财富证券研究所 图5:RDMA实现了服务器之间的互联 资料来源:百度智能云《智算中心网络架构白皮书(2023)》,东方财富证券研究所 IB和RoCEv2是RDMA的主流方案。实现RDMA的方式有InfiniBand(IB)、RoCEv1、RoCEv2、iWARP四种。其中 RoCEv1技术已被淘汰,iWARP基于TCP/IP架构,因此使用较少;当前RDMA技术主要采用的方案为IB和RoCEv2两种。 相较于传统TCP/IP网络,IB和RoCEv2网络时延性能会有数十倍的改善,实验室的测试数据显示,绕过内核协议栈后,应用层的端到端时延可以从50us(TCP/IP),降低到5us(RoCE)或2us(IB)。 图6:四大RDMA方案 资料来源:百度智能云《智算中心网络架构白皮书(2023)》,东方财富证券研究所 图7:IB、RoCEv2显著降低时延 资料来源:百度智能云《智算中心网络架构白皮书(2023)》,东方财富证券研究所 IB性能较以太网更加占优。IB是一种专用协议,最初设计用于服务器、存储和网络设备之间的连接,以满足数据中心的需 求,主要目标是提供高性能、低延迟和高可靠性;以太网是一种通用协议,被广泛用于局域网(LAN)和广域网 (WAN)通信,主要目标是实现简单性、灵活性和可扩展性。 图8:IB性能优于以太网 指标 IB 以太网 带宽与速率 市场主流的InfiniBand产品为HDR,可以为网络提供端到端高达200G的带宽,NDR将达到400G。InfiniBand在高性能计算和大规模数据处理中具有明显优势。 以太网的速率从10Mbps起步,已发布了100Gbps、200Gbps、400Gbps、800Gbps甚至1.6Tbps的以太网接口 延迟 InfiniBand可以提供更低的延迟,通常在微秒级别。 以太网的延迟相对较高,通常在微秒到毫秒级别之间 扩展能力 单集群万卡GPU规模,且保证整体性能不下降 单集群支持千卡规模且整体网络性能也无太大的降低 资料来源:百度智能云《智算中心网络架构白皮书(2023)》,态路通信官网,东方财富证券研究所 兼容性&成本是IB的显著缺点。IB阵营以英伟达为核心,通过软硬件垂直整合构建起竞争壁垒(2019年收购Mellanox), 在IB网络设备的市场占有率超过70%,阵营生态相对封闭,对其他供应商的兼容性较差。成本方面,根据SemiAnalysis测 算,大型AI集群中(98304张H100组网),3层Infiniband的交换机成本在1.69亿美元左右。BroadcomTomahawk5的方案与IB方案相比,性价比优势更为突出,交换机成本仅0.79亿美元。 图9:英伟达IB网卡与IB交换机 ConnectX-8 QM8700 资料来源:英伟达官网,东方财富证券研究所 图10:以太网方案成本优势显著 资料来源:GemiAnaly›i›,东方财富证券研究所 超以太网联盟成立以对抗IB网络。为取代RoCE协议,创建一个适用于AI/HPC场景、基于以太网的完整通信堆栈架构, 以提高网络吞吐量、降低延迟,UEC孕育而生,成员包括AMD、Arista、博通、思科、华为等设备商以及Meta、微软、 BAT等云厂商。2024年英伟达正式加入UEC。 图11:UEC联盟成员 资料来源:UltraEthernetConsortium官网,东方财富证券研究所 网络架构的变化导致光模块需求的变化。以传统三层架构到叶脊架构的转变为例,叶脊网络架构下,光模块数量提升最 高可达到数十倍。 图12:三层架构和叶脊架构拓扑示意图 传统三级 (Three-Tier)数据中心设计 典型的叶脊架构 (Spine-Leaf)拓扑 表1:传统架构到叶脊架构的光模型需求变化 数据中心类型架构 光模块需求 10G 40G 100G 传统架构 2000 16 4 中小型 叶脊架构 1920 160 16 (1000台服务器) 提升 (叶脊架构/传统架构) 0.96 10 4 传统架构 128000 160 8 大型叶脊架构 120000 4800 32 (1000个机柜) 提升 0.94 30 4 (叶脊架构/传统架构) 资料来源:包琅允《叶脊架构在数据中心的应用》,东方财富证券研究所资料来源:包琅允《叶脊架构在数据中心的应用》,东方财富证券研究所 主流的网络架构包含Fat-Tree、Torus、Dragonfly三类。 Fat-Tree:Fat-Tree拓扑的网络带宽不收敛,每个节点的上行带宽和下行带宽相等,支持对接入带宽的线速转发,并且在横向扩展时支持增加链路带宽。Fat-Tree拓扑中所使用的网络设备均为端口能力相同的交换机,可有效降低网络建设成本。Torus:Torus是一种环面拓扑,节点按照网格的方式排列,连接同行和同列的相邻节点,并连接同行和同列的最远端的2个节点,使得Torus拓扑中每行和每列都是一个环。Torus拓扑通过从二维扩展到三维、或更高维的方式增加新的接入节点, 可提高网络带宽,降低延迟。 Dragonfly:Dragonfly是一种分层的拓扑结构,包括Switch、Group和System3层,其中Switch层包括一台交换机和与其相连的多个计算节点;Group层包含多个Switch,多个Switch间进行全连接;System层包含多个Group,多个 Group间也进行全连接。 图13:主流智算组网架构 资料来源:张世华等《新型智算中心组网方案研究》,东方财富证券研究所 胖树架构增加层数可提升GPU容纳数量:两层胖树和三层胖树最重要的区别是可以容纳的GPU卡的规模不同。以N代表GPU卡的规模,P代表单台交换机的端口数量。两层胖数组网架构单台交换机最大可下联和上联的端口为P/2个,即单台交换机最多可以下联P/2台服务器和P/2台交换机,两层胖树网络可以接入P*P/2张GPU卡,即Nmax=P²/2;三层网络架构中会新增汇聚交换机组和核心交换机组,每个组里面的最大交换机数量为P/2,核心交换机组的最大数量为P/2,三层胖树网络可以接入P*(P/2)*(P/2)=P*P*P/4张GPU卡,即Nmax=P³/4。如对于端口数为40的交换机,两层胖树架构可容纳的GPU卡的数量是800卡,三层胖树架构可容纳的GPU卡的数量是16000卡。 图14:两层胖树架构 资料来源:百度智能云《智算中心网络架构白皮书(2023)》,东方财富证券研究所 图15:三层胖树架构 资料来源:百度智能云《智算中心网络架构白皮书(2023)》,东方财富证券研究所 02 英伟达H100、NVL72集群网络架构详解 超大型集群需要考虑电力瓶颈。OpenAI、XAI、Meta等都构筑十万卡集群,但超大集群面临的一个重要问题是电力瓶颈 ,数据中心容量需要达到150MW以上,而北美无单一建筑可有150MW的容量,因此超大智算集群需要承载的主体是园 区而不是单栋楼宇。因此需要在每栋建筑建立一个或多个计算单元,然后用长距离光模块实现“计算孤岛”的连接。但出于成本的考虑,集群通常并不会部署完整的Fat-Tree架构,而是在孤岛内部署完整的Fat-Tree架构,孤岛间选择较低的带宽连接,如Meta的32000卡集群,孤岛间的带宽与孤岛内带宽比为1:7。 图16:“计算孤岛”通过长距离光模块连接 资料来源:SemiAnalysis,东方财富证券研究所 图17:Meta32000