数据中心互联技术专题四:CSP云厂AI军备竞赛加速,智算中心架构快速发展 行业研究·行业专题 通信 投资评级:优于大市(维持评级) 证券分析师:袁文翀联系人:赵屿021-60375411021-61761068yuanwenchong@guosen.com.cnzhaoyu6@guosen.com.cnS0980523110003 投资摘要 CSP互联网云厂AI军备竞赛进入2.0时代,智算中心互联技术发展快速迭代。自2023年,ChatGPT3.5点燃“大模型革命”起,AI发展万众瞩目,各大科技公司纷纷投入大模型研发并加大智算中心建设。根据CSP厂商的Capex指引,预计2025年,海外亚马逊、谷歌、微软、Meta四家厂商合计Capex增至3610亿美元,同比增幅超58%;国内字节、腾讯、阿里Capex有望超过3600亿元。本轮AI浪潮前期,英伟达作为AI芯片领军企业,其AI芯片供不应求;随着CSP云厂持续加大智算中心投入,具备更高性价比的自研ASIC算力芯片成为AI军备竞赛新一轮发展的核心,AI芯片集群的互联网技术也随之加速迭代升级。本文主要对智算中心网络架构发展及未来新技术进行探讨。 AI芯片领军企业英伟达加速迭代其AI芯片性能,推动智算中心快速发展。英伟达芯片P/V/A/H/B等系列芯片架构由早期的每4年升级一次加速到每两年迭代升级一次,过去3年间,AI算力集群也从64个AI芯片组成的机柜发展到256个乃至288/576个AI芯片集群,芯片之间的网络连接速率也随之从400G演进至目前使用的1.6T。智算中心互联技术涉及到的光通信、铜连接/背板连接、液冷等均在显著受益行业发展。在AI行业发展带动下,头部AI芯片企业华为、AMD等陆续发布了自己研发设计的算力集群超节点项目。 CSP互联网云厂自研ASIC芯片和算力集群,探索适应自身AI发展之路。(1)Google谷歌自研ASIC芯片TPU早自2015年,目前已经在规划其TPU第七代芯片,自TPU V4开始独创OCS全光交换架构,自TPU V6开始使用1.6T光模块传输。(2)AWS亚马逊自研的Trainium芯片规划到第三代,去年底Trainium2集群内互联使用AEC铜缆连接备受瞩目,而明年规划的Trainium3集群架构开始使用铜背板连接。(3)META自研MTIA芯片初出牛犊,但META已深度设计数据中心架构很多年,早期较出名的CLOS架构就出自META,META也专门为英伟达和AMD芯片设计了独有的机柜。(4)博通、Marvell等厂商积极参与支持全球CSP云厂的数据中心建设。(5)国内CSP云厂,腾讯(ETH-X)/阿里(ALS)/字节等,均在根据自身需求设计数据中心架构;立讯等厂商积极参与互联方案设计。 光通信/铜连接市场快速增长,CPO/铜背板/Swith(PCIe)/OCS/OIO/DCI等新技术未来可期。ASIC芯片出货量持续加大,我们测算明年全球800G光模块有望达4000万只,1.6T光模块有望超过700万只。2029年,CPO渗透率有望达到50%(Lightcounting预测),OCS市场规模有望超过16亿美元(CignalAI预测),PCIe Switch市场规模有望达50亿美元(ABI预测),DCI市场规模有望达284亿美元(Mordor intelligence预测)。 投资建议:智算中心互联技术主要使用光通信和铜缆/铜背板连接,推荐关注光模块厂商【中际旭创/新易盛/光迅科技/华工科技】等,光器件厂商【天孚通信/长芯博创/太辰光/仕佳光子】等,铜连接【兆龙互联】等,以及通信设备厂商【中兴通讯/紫光股份/锐捷网络】。 风险提示:AI发展及投资不及预期;行业竞争加剧;全球地缘政治风险;新技术发展引起产业链变迁。 目录 CSP军备竞赛持续,AI算力基建呈现高景气度01算力芯片厂商加速迭代,推进行业发展02CSP云厂在研ASIC芯片和数据中心网络03新技术:CPO/OCS/铜背板/OIO/PCIe Switch/DCI等04投资建议05 一、CSP军备竞赛持续,AI算力基建呈现高景气度 各大科技公司发展AI竞争激励,Tokens调用消耗量日益增长 大模型持续迭代,训练需求持续增长。 u爆发起点:2023年,ChatGPT3.5点燃“大模型革命”,海外巨头率先发力。 u万模大战:2024年,ChatGPT4-o1模型能力进入60指数,其他模型能力进入“平台期”。 u竞争白日化:2025年,各大科技公司持续迭代大模型,中国DS异军突起,行业竞争白日化。 大模型未来发展有可能再分化:复杂任务解决能力、多模态、解决模型幻觉等,或持续提升算力需求。 资料来源:artificialanalysis,国信证券经济研究所整理 AI推理的token量出现爆发式增长。 (1)AI agent:Token消耗从“单次交互”转向“任务链条式累积”,token用量也呈现爆发式增长。 (2)多模态模型:图像、视频、音频转换为模型可理解的Token,会产生海量Token。(3)AI的渗透和生态发展:例如,Google的token用量从5月的月均480e增加到7月980e,Gemini app月活超过4.5亿,Google Cloud新增客户量环比+28%。 资料来源:OpenRouter,国信证券经济研究所整理 CSP互联网云厂进入AI军备竞赛状态,持续加大投入建设智算中心 海外CSP云厂的资本开支持续增加,景气度持续。 uGoogle:2025年全年capex从750亿美元上调至850亿美元。月均Tokens达到980万e,AI Overviews 20+亿的月度用户,Gemini app月活4.5+eGoogleCloud新增客户量环比+28%。 uMeta: 25年全年capex上调至660-720亿美元。宣布启动Prometheus与Hyperion集群项目,重金组建44人超级智能实验室,.Family of Apps生态月活34.8亿,Meta AI月活超10亿.u微软:FY2025全年资本开支800亿美元,预计FY26Q1资本支出超300亿。过去一年数据中心新增超2吉瓦容量,数据中心数量超400个。uAWS:预计25年全年capex1000亿美元。。Alexa+用户数超过10万。 国内五大CSP厂商资本开支持续攀升。 u2025年Q1阿里资本开支增长126.7%,腾讯同比增长91%,百度预计2025年不断增加资本支出,字节、华为也有大幅投入,且多用于AI基础设施建设。 资料来源:甲子光年,国信证券经济研究所整理 资料来源:各公司公告,国信证券经济研究所整理 资料来源:各公司公告,国信证券经济研究所整理 CSP互联网云厂开启自研ASIC算力芯片之路 CSP加速了ASIC研发,每家都有自研AISC芯片并发展数据中心,数通行业持续受益。AWS目前以与Marvell协同设计Trainiumv2为主力,其主要支持生成式AI与大型语言模型训练应用,AWS也和Alchip合作Trainium v3开发。Google已于2024年底推出TPU v6 Trillium,主打能效比和针对AI大型模型的最佳化,官方称相比上一代训练能力提升4X,推理吞吐量提升3X。Meta已部署首款自研AI加速器MTIA后,正与Broadcom共同开发下一代MTIA v2。 资料来源:IDC,国信证券经济研究所整理 资料来源:IDC,国信证券经济研究所整理 智算中心网络架构由Scale-up和Scale-out组成 数据中心内网络Scale-up/Scale-out对光模块需求量越来越大。Scale Up扩展算力的C2C互联技术,Scale Out做面向AI集群扩展。 资料来源:各公司公告,国信证券经济研究所整理 资料来源:Marvell、Broadcom官网,国信证券经济研究所整理 AI底层互联技术:Serdes单通道速率升级,推动传输带宽升级到1.6T Serdes技术升级。电信号传输能力核心是SerDes技术,是芯片与外界交换数据的基本单元,光端口带宽为Serdes带宽整数倍。SerDes的全称是SERializer(串行器)/DESerializer(解串器),是一种高速的时分多路复用(TDM)、点对点(P2P)的串行通信技术。224G SerDes产品在2024年开始逐步成熟,Marvell在FQ4 2024业绩电话会上表示,其下一代单通道200Gb/s速率的1.6T PAM DSP产品已经在客户侧进行认证。以太网、InfiniBand、PCIe等技术也在不断升级。 资料来源:IP Nest,国信证券经济研究所整理 资料来源:PCIe,国信证券经济研究所整理 资料来源:IP Nest,国信证券经济研究所整理 资料来源:IP Nest,国信证券经济研究所整理 AI底层互联技术:英伟达、博通发力,加速迭代芯片升级发展 英伟达的NVLink自2014年推出以来已历经五代演进,迭代速度持续加快。早期1.0~3.0版本聚焦机框内GPU高速互联,对标PCIe并依托Ethernet生态实现带宽优势,还引入NVSwitch构建总线域网络;4.0版本突破机框限制,对标InfiniBand和Ethernet网络。 博通交换机芯片持续迭代,覆盖Scale-up和Scale out场景。如51.2TJ4交换机 芯 片 覆 盖S c a l e - o u t数 据 中 心 间D C I互 联 场 景 和 数 据 中 心 内 的 场 景 。Tomahawk6(102.4T主要定位超大规模scale-out互联方案)、TomahawkUltra(51.2T超低延时,主要定位scale-up超节点高速互联),形成了AI数据中心完整的的产品矩阵。 资料来源:博通,国信证券经济研究所整理 二、英伟达等AI芯片厂商推动智算中心快速升级 英伟达AI芯片加速迭代,目前H200是主流产品 英伟达芯片架构每2年左右升级一次,芯片之间的网络连接同步迭代,速率不断提升,目前采用H200方案较多。 u单个GH200集群(256张GPU互联),2层fat-tree网络(NVLink Switch:32*800G端口)结构。L1:96台,L2 36台。由于NVLink 4.0双向速率900GB/s,总上行带宽为115200GB/s,800G光模块总需求为2304块。因此,GH200集群内,GPU:光模块=1:9。 u若考虑多个GH200互联,参考H100架构,3层网络架构下,GPU:800G光模块需求=1:2.5;2层网络架构下,GPU:800G光模块=1:1.5。即多个GH200互联情况下,GPU:800G光模块上限=1:(9+2.5)=1:11.5。 资料来源:NVIDIA,国信证券经济研究所整理 展望B系列发展,拉动光模块和铜连接需求 GB200NVL72架构:18个1U计算托盘和9个NVSwitch托盘组成。每个计算托盘包含2个Bianca板。每个Bianca板是1个Grace CPU和2个Blackwell GPU。NVSwitch托盘有两个28.8Tb/s NVSwitch5 ASIC。每个B200 GPU支持1.8 TB/s双向带宽。每个计算托盘(4个GPU)提供7.2 TB/s总带宽,所有计算托盘合计129.6 TB/s双向带宽。 u铜连接:NVLink 5.0 1800GB/s速率对应4DP(4*200Gb/s)*18通道=72DP,则总差分线数量=72*72=5184条。GPU:400GDAC=1:36u光模块:GB200集群(576GPU):2层架构8Rack,GPU:800G=1:1.5~2.5;GB300集群:GPU:1.6T=1:1.5~2.5;DGX-B300集群(4096GPU):GPU:800G=1:4~4.5 资料来源:NVIDIA,国信证券经济研究所整理 展望B系列发展,传