AI智能总结
2025年7月23日 通过复盘海外算力互连环节近两年的主要产业变化与市场走势,我们认为此轮25Q2及后续行情与23Q2、24Q1-Q2行情相比,产业链的成长逻辑已经发生了改变,主要有以下四大趋势:1.算力硬件需求从锚定云厂商CapEx到锚定处理Token数2.算力芯片从依赖GPU到GPU+ASIC并存3.技术迭代从光模块、PCB、交换机、网卡等产品级别的升级,转为网络架构级别整体升级4.网络互连升级重心从Scale Out拓展至Scale Up,两类网络共同提升,单芯片带宽提升因此我们认为我们认为后续算力互连需求发展存在乘数效应:•资本开支结构优化,算力芯片增长速度高于资本开支增速:芯片需求=CapEx×算力芯片投资在CapEx占比×芯片投资性价•单芯片带宽提升,互连需求增速高于芯片增速:算力互连需求=芯片需求×单芯片带宽投资建议:我们认为随着用户消耗Token速度提升,更大的Scale Up超节点具备的推理性能优势会越放越大,我们认为采用PCB+铜互连+光互连扩张Scale Up超节点的方案是潜在最优解之一,互连带宽需求有望随着“乘数效应”实现快速增长,且光连接、铜连接、PCB等各种互连方式都有望深度受益瓜分增量互连需求,相关标的——光互连:中际旭创,新易盛,天孚通信,源杰科技,长光华芯,长芯博创,仕佳光子,致尚科技,太辰光;铜互连:兆龙互连,中际旭创,鸿腾精密;PCB:胜宏科技,景旺电子,沪电股份,生益电子。风险提示:算力互连需求不及预期;客户处份额不及预期;产品研发落地不及预期;行业竞争加剧。 25Q2起:逻辑深化产业链增速高于Capex&芯片增速23Q2:从应用到算力,Scale Out网络需求凸显24Q1-Q2:Sora、GB200等软硬新产品+财报拉动景气度投资建议及风险提示 11 一、23Q2:从应用到算力,Scale Out网络需求凸显 1. 23Q2:从应用到算力,Scale Out网络需求凸显我们认为大模型显现之初市场认知的AI算力有以下特点:•通用计算切换至GPU加速计算•模型参数量、算力、数据量均指数级提升•胖树(Fat-Tree)架构成为首选,Scale out网络需求激增资料来源:英伟达,张楠等《光计算和光电智能计算研究进展》,东吴证券研究所人工智能模型算力需求变化 •传统云计算数据中心流量以“南北向”(用户到服务器)为主,网络架构多呈收敛型(如金字塔形),带宽逐层收敛。•AI大模型训练则以“东西向”(服务器之间,即GPU之间)流量为主,要求在庞大的计算集群内部实现高带宽、低延迟的无阻塞互联。为此,胖树(Fat-Tree)架构成为AI首选。该架构理论上“无收敛”,从“叶”到“根”的各层级网络带宽保持充裕,以满足LLM训练中数据并行、流水线并行等产生的大量内部通信需求。Fat-tree无阻塞网络架构资料来源:FS,东吴证券研究所1. 23Q2:从应用到算力,Scale Out网络需求凸显 5 •在典型的Fat-Tree架构下,为了实现GPU间的无阻塞通信,所需的高速光模块数量与GPU数量存在高配比关系。以一个由128台H100服务器(1024个H00GPU)组成的集群为例,总共需要1536个800G光模块和1024个400G光模块。•相比之下,传统云计算的算力需求不仅总量较低,且光模块多为中低速率,因此光通信,特别是800G及未来更高速率的产品,已从过去的辅助角色转变为AI基础设施的核心高价值组件。典型H100集群Scale Out网络资料来源:ATOP,东吴证券研究所1. 23Q2:从应用到算力,Scale Out网络需求凸显 6 二、24Q1-Q2:英伟达业绩+GB200新品拉动景气度 •Sora推高多模态推理需求预期。2024年Q1OpenAI推出全新的生成式人工智能模型“Sora”,文生视频的效果令人惊艳,Sora所需推理算力相比GPT-4等文本模型呈现数量级的提升,Sora输出一段1分钟长的视频所需浮点算力大约是GPT-4输出1,000个tokens的1000倍。资料来源:OpenAI,电子技术应用,东吴证券研究所Sora所需推理算力需求远高于文本模型2. 24Q1-Q2:Sora、GB200等软硬新产品+财报拉动景气度Sora推理流程 8 010000200003000040000500006000023Q123Q223Q3Meta微软合计yoy海外四大CSP资本开支增速逐季提升(单位:百万美元,%)0500010000150002000025000300003500023Q123Q223Q323Q424Q124Q2营业收入净利润英伟达业绩逐季增长(单位:百万美元)•英伟达业绩持续验证AI算力高景气度。自23Q1以来,英伟达营收与净利润逐季高速增长,持续超出市场预期,英伟达的高增长验证了AI训练与推理的需求,及海外AI玩家为支持AI模型及应用推广,正进行着积极的算力扩容和基础设施升级。•下游云厂商资本开支持续提升。23Q2开始亚马逊、谷歌、微软、Meta四大云厂合计资本开支稳步提升。资料来源:Wind,公司公告,东吴证券研究所2. 24Q1-Q2:Sora、GB200等软硬新产品+财报拉动景气度 -20%-10%0%10%20%30%40%50%60%70%23Q424Q124Q2谷歌亚马逊9 三、25Q2起:逻辑深化产业链增速高于Capex&芯片增速 •资本开支向AI算力倾斜,AI投资内生增长同样强劲。根据英伟达业绩会披露的数据中心(DC)业务中来自云厂的收入占比、以及各相关公司财报,我们估算出自23Q1至24Q4两年间各季度区间英伟达来自云厂的DC收入与五家云厂资本开支的比值,这一比值从23Q1的5%逐渐增长至24年下半年的30%左右,我们认为云厂资本开支向AI算力倾斜是这一数值逐季度增长的主要原因,AI投资在资本开支分配中也有强劲的内生增长。注:五家云厂为亚马逊、谷歌、微软、Meta、甲骨文;英伟达相关数据的时间区间按照财报规则划分;估算结果具体数值不构成直接参考资料来源:公司公告,东吴证券研究所23Q123Q223Q323Q4五个云厂资本开支(亿美元)317303356453410英伟达DC收入(亿美元,对应邻近一个财季数据)43103145184226DC来自大型云厂收入占比(公司口径估算)40%50%50%55%45%来自大型云厂收入(亿美元,公司口径估算)175273101102英伟达来自云厂的DC收入/五家云厂资本开支5%17%20%22%25%英伟达来自云厂的DC收入/五家云厂资本开支比值测算3.1开支结构持续变化,算力产业链增速超CapEx增速 24Q124Q224Q324Q446050063826330835645%50%50%11815417826%31%28% •ASIC出货逐渐增加,AI投资内部价值有望重分配。ASIC相比GPU单卡性能略差但性价比更高,“单位美元”能够买、需要买的算力卡及配套增加,云厂资本开支投向或在产业链再分配,产业链相关硬件需求增速有望高于云厂资本开支增速。•资本开支结构优化对产业链增速的贡献已经显现。基于四家供应链头部公司的季度营收与北美四大云厂资本开支,可以测算出前者营收总和以及后者资本开支总和的单季度同比增速,虽然有老产品ASP年降影响,但自24Q1起营收总和增速持续高于资本开支总和增速。注:四家供应链头部公司分别为中际旭创、新易盛、胜宏科技、沪电股份,北美四大云厂分别为亚马逊、谷歌、微软、Meta资料来源:公司公告,东吴证券研究所产业链头部公司营收总和与四大云厂资本开支总和同比增速3.1开支结构持续变化,算力产业链增速超CapEx增速-20%0%20%40%60%80%100%23Q123Q223Q323Q424Q124Q224Q324Q4产业链头部公司营收总和yoy四大云厂资本开支总和yoy 25Q1 3.2 Token数成为AI闭环点,指数级增长带动推理算力需求•Token规模的指数级增长。以谷歌和字节跳动为例,谷歌AI月度Token量在一年内激增约50倍,达到480万亿Tokens;豆包大模型5月日均处理量也已突破16.4万亿,同比增长超120倍。•新应用场景涌现,驱动高价值Token消耗,进一步提升算力需求。随着深度推理和视觉理解等先进模型投入使用,高价值应用场景的Token消耗量正迅猛增长,从去年12月到今年5月,火山引擎各高价值场景处理Token数发生了显著变化,AI搜索增长10倍,AI编程增长8.4倍,K12教育场景Token消耗增长了12倍,智能巡检、视频检索等新线下场景也突破日均百亿Token。•我们认为Token数在整个AI生态中向上关联推理的算力需求,向下形成AI增量和收入,成为了目前AI生态的闭环点。谷歌月度tokens消耗量一年增长近50倍资料来源:谷歌,华尔街见闻,东吴证券研究所豆包日均tokens消耗量迅速增长 •AI训推需要分布式并行计算,基于对计算效率不断提升的追求,并行计算方式有数据并行(Data Parallelism)、流水线并行(Pipeline Parallelism)及张量并行(Tensor Parallelism)。•数据并行:将输入数据分配给各个负载,各负载上基于不同数据进行同一模型的训练/推理;•流水线并行:将模型分为若干层分配给各个负载,各负载分别进行不同层的计算;•张量并行:将模型参数运算的矩阵拆分至各个负载,各负载分别进行不同的矩阵运算(由于篇幅有限本文未就技术原理做详细阐述,可参考外发报告《AI算力跟踪深度:辨析Scale Out与Scale Up》,具体细节欢迎进一步交流)数据并行(左),张量并行(中),流水线并行(右)计算原理图资料来源:Github-Phillip Lippe,东吴证券研究所3.3 AI训推计算范式推动Scale Up升级、单卡带宽提升 14 并行计算催生Scale Up网络需求:•几类并行计算方法各有优劣,大模型训练采用集合了多种并行方式的混合并行计算,如3D并行计算•与数据并行、流水线并行相比,张量并行矩阵运算后需要同步,因此需要更高频、更低延时的数据传输,传输数据量也高出一到两个数量级•通常数据并行、流水线并行基于容纳卡数更高的Scale Out网络,张量并行基于单卡带宽更高的Scale Up网络。(由于篇幅有限本文未就技术原理做详细阐述,可参考外发报告《AI算力跟踪深度:辨析Scale Out与Scale Up》,具体细节欢迎进一步交流)张量并行需要传输的数据量多出一到两个数量级(GPT-3B模型基于32个GPU训练数据)3D混合并行计算资料来源:《3D parallelism: Scaling to trillion-parameter models》,《Understanding Communication Characteristics of Distributed Training》,东吴证券研究所3.3 AI训推计算范式推动Scale Up升级、单卡带宽提升 训推计算的“内存墙”催生出通过Scale Up网络将显存池化的需求:•单一大模型的参数量与单卡显存的差距(即模型内存墙)、单卡算力与单卡显存间的差距(即算力内存墙)均逐代放大•除模型参数外,推理计算生成的KV Cache(关键中间值的缓存,用于简化计算)占用显存大小也可达模型的50%甚至以上•因此单卡运算时需从多张卡的显存读取所需参数、数据,为了尽可能减少数据传输时延,目前产业化应用最优解是使用Scale Up网络将显存池化,如NVL72。(由于篇幅有限本文未就技术原理做详细阐述,可参考外发报告《AI算力跟踪深度:辨析Scale Out与Scale Up》,具体细节欢迎进一步交流)模型内存墙逐代放大资料来源:Medium,东吴证券研究所3.3 AI训推计算范式推动Scale Up升级、单卡带宽提升 算力内存墙逐代放大 16 •通信带宽是推理速度的瓶颈。GPU“卡内通信带宽>卡间通信带宽>机间通信带宽”,由于“