您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中泰证券]:互联网行业谷歌链专题:AI全栈式创新,TPU+OCS共塑下一代智算网络 - 发现报告

互联网行业谷歌链专题:AI全栈式创新,TPU+OCS共塑下一代智算网络

信息技术2025-11-05中泰证券周***
AI智能总结
查看更多
互联网行业谷歌链专题:AI全栈式创新,TPU+OCS共塑下一代智算网络

首席通信分析师陈宁玉SAC:S0740517020004通信分析师孙悦文SAC:S0760525070002通信分析师杨雷SAC:S0740524060005 核心要点核心要点 ◼谷歌AI全栈优势构筑护城河,资本开支具备提升潜力。全面布局芯片(TPU)-网络(OCS)-模型(Gemini)-应用(云计算/搜索/广告等),自研TPU芯片实现跨越式发展,Gemini模型能力全球领先,重视谷歌算力需求的高增长以及AI硬件创新带来的产业链投资机会。谷歌2025Capex上调至910-930亿,capex营收比与经营性现金流占比,相比其他CSP具备提升潜力,预计2026年将继续加大资本投入。Gemini月活跃用户已超6.5亿,每月处理Token总量一年内增长超过20倍。谷歌云营收及占比持续提高,AI拉动下需求强劲在手订单充足。 ◼为什么AI数据中心要使用OCS?光交换技术最早出现于电信市场,应用于以WSS为代表的传统电信网络中。数通领域特殊的光开关为OCS(光电路交换机),利用光信号直接传输数据,避免了信号的转换过程,减少了延迟和能量消耗,尤其是在跨区域扩展和大规模AI算力需求下表现出极大优势。传统光电架构动态性能、功耗、成本面临挑战,OCS是应对动态算力需求的关键解决方案——服务器解耦的核心动态互连技术。当Scale-Out规模呈指数级扩张,传统Clos架构在功耗散热,布线及相应资本开支方面都会面对明显挑战;而传统数据中心架构“CPU–内存–GPU–存储”紧耦合加重上述症结。根据Drut,服务器解耦的技术核心是通过OCS动态光子fabric,实现PCIe信号的长距离、低延迟传输,数据无需经过多跳交换机,效率显著提升。 ◼谷歌TPU出货预期上修,OCS光交换机前景广阔。早期谷歌数据中心使用Clos拓扑架构,在自研TPU集群Jupiter/Apollo架构中引入OCS替代脊交换机,根据SemiAnalysis,谷歌的OCS定制化网络使其整个网络的吞吐量提升了30%,功耗降低了40%,数据流完成时间缩短了10%,网络宕机时间减少50倍,且资本开支减少30%。目前谷歌TPU V7 Ironwood即将全面上市,开始配置1.6T光模块,OCS主要采用MEMS和液晶方案,其核心部件MEMS阵列、光纤阵列、发射/接收模组及其光学器件、钒酸钇晶体、光模块、环形器、光源等供应商均有望受益。OCS主要包括MEMS、液晶、压电、硅光波导四种方案,其中MEMS和液晶方案应用进展较快,其他方案也在技术优化。英伟达等也在探索OCS应用,考虑到OCS的性能优势,随着技术方案的成熟,未来在数据中心应用前景广阔。 ◼投资建议:重视谷歌AI算力产业链和OCS技术创新带来的投资机会。重点关注中际旭创(谷歌光模块主供应商,海外子公司TeraHop推出硅光子OCS交换机),长芯博创(谷歌链光器件供应商),腾景科技(OCS主要产品种类较多,且在多种方案都有应用),德科立(iPronics联合研发制造光波导方案OCS),光库科技(收购武汉捷普,具有OCS业务),炬光科技(提供NXN大透镜、精密设计V型槽阵列等产品),赛微电子(MEMS-OCS境内外产线分别服务于境内外知名客户,具有多年经验),凌云光(压电陶瓷方案国内稀有厂商)、光迅科技(OFC2024创新推出MEMS系列最新产品OCS)等。 ◼风险提示:AI进展不及预期、全球数据中心资本开支不及预期、下游需求不及预期、OCS产业技术进展不及预期、国内外宏观经济下行风险、研报更新不及时风险。3 谷歌AI全栈优势,增强Capex持续性 谷歌谷歌AIAI全全栈栈优优势势构构筑筑护护城城河河 ◼谷歌AI围绕芯片(TPU)-网络(OCS)-模型(Gemini)-应用(云计算/搜索/广告等)全栈优势构筑护城河。从2011年谷歌成立谷歌大脑(Google Brain)实验室开始涉足AI开始,一系列具有影响力的AI研究相继问世,包括2017年发布Transformer架构到2023年推出多模态大模型Gemini,目前已形成从芯片到集群架构到大模型再到应用端的布局,谷歌将AI逐步整合到多元业务流程中,这些业务为谷歌获取了海量数据,用于训练完善AI。同时通过收购AI初创公司拓展市场边界。2025Q3季度营收突破千亿美金,全栈式人工智能解决方案发展势头强劲,有3亿付费订阅用户,主要来自Google One和YouTube Premium。Gemini应用的月活跃用户已超过6.5亿,现在每月处理的Token总量超过1.3千万亿枚(7月处理的Token总量为980万亿枚),一年内增长超过20倍。 谷谷歌歌资资本本开开支支新新高高,,CCapapeexx营营收收比比具具备备提提升升潜潜力力 ◼CSP厂商Capex营收占比历史高位,谷歌具备进一步提升潜力。谷歌25Q3资本开支239.57亿元,同比+83.42%,2025年以来谷歌Capex及同比均重回增长,Capex绝对值为2020年来最高值,同比自24Q4以来营收及同比均创下新高。公司法说会FY25 Capex上调至910-930亿美金,前值为850亿美元。预计2026年谷歌仍将继续加大资本投入,算力发展确定性高。 ◼2024年谷歌Capex占营收比15%,其他CSP厂商Meta、微软、甲骨文Capex营收比均超20%;与之呼应的是,2024年谷歌Capex相对谨慎,季度同比呈现下行趋势;2025年谷歌Capex资本开支分季度同比斜率重新回正,一方面印证谷歌资本开支营收比仍有空间,另一方面考虑到本轮谷歌Capex加速始于2023年起公司推进AI,公司AI飞轮效应显现,Capex投入力度或将继续加大。 来源:wind,中泰证券研究所 云云业业务务营营收收及及占占比比持持续续提提高高,,CCapapeexx现现金金流流相相对对较较低低 ◼2025Q3谷歌云收入增长34%至152亿美元,净利润增长33%,主要得益于谷歌云平台(GCP)核心产品、AI基础设施和生成式AI解决方案的增长,季度末积压订单达1550亿美元。2020年以来云业务营收及营收比稳步提升,25Q3云业务营收占比约为15%,AI对云业务拉动明显,今年前三个季度签署的超过10亿美元的交易数量,超过了过去两年的总和。2024年谷歌Capex经营性现金流占比41.93%,低于微软(44.24%)及甲骨文(59.40%),略高于Meta(40.79%),表明2024年谷歌现金流空间相对安全,2025年后可进行更大Capex投入。◼自研第七代TPU Ironwood即将全面上市,正在加大TPU产能投入,以满足客户巨大需求,Anthropic最近宣布计划采购多达100万个TPU。 来源:wind,中泰证券研究所 谷歌TPU跨越式发展,带动产业链需求 ◼2015年谷歌发布第一代TPU起,每一代TPU系统均在性能、可扩展性与系统效率上不断提升,Google逐步将光互连技术融入TPU系统,2025年发布的TPU v7实现了能构建9216颗大规模集群的跨越。•2018年TPU v2:每个superpod包含256颗TPU芯片,采用2D环面(2D Torus)拓扑,单芯片芯片间互连(ICI)带宽为800GB/s,尚未引入 光模块;•2020年TPU v3:超级集群芯片数提升至1024颗,仍保持2D环面拓扑,单芯片ICI带宽维持800GB/s,首次引入光互连技术,采用400Gbps有源光缆(AOC),光通道波特率为50G;•2022年TPU v4:芯片数跃升至4096颗,拓扑升级为3D环面(3D Torus),单芯片ICI带宽调整为600GB/s,光模块升级为400G OSFP,同时引入OCS,光通道波特率仍为50G;•2023年TPU v5p:集群芯片数增至8960颗,延续3D Torus拓扑,单芯片ICI带宽翻倍至1200GB/s,光模块更新为800G OSFP,光通道波特率提升至100G,OCS技术继续沿用;•2025年TPU v7(Ironwood):集群芯片数达到9216颗,保持3D Torus与1200GB/s的单芯片ICI带宽,采用800G OSFP光模块,光通道波特率提升至200G。 TPUTPU架架构构迭迭代代::从从v1v1到到v3v3 ◼架构上来看,TPU v4前为2D环面拓扑结构: •TPU v1为服务器端推理芯片。TPU v1由CPU通过PCIe 3.0总线驱动CISC指令,采用28nm工艺制造,具有28MiB的芯片内存和4MiB 32位累加器,用于存储256x256系统阵列的8位乘法器的结果,核心是一个巨大的256x256矩阵乘法器(MXU),里面塞了65536个8位计算单元。TPU v1主要针对2015年左右最火的神经网络进行优化,包括MLP多层感知机、CNN卷积神经网络、RNN递归神经网络& LSTM长短期记忆。 •TPU v2定位服务端AI推理和训练芯片。对比v1,TPU v2改变主要有1)采用单个向量存储器,而不是固定功能单元之间的缓冲区;2)通用向量单元,而不是固定功能激活管道;3)连接矩阵单元作为向量单元的卸载;4)将DRAM连接到内存系统而不是直接连接到矩阵单元;4)转向HBM以获得带宽;5)添加互连以实现高带宽扩展。此外,谷歌将四个TPU v2排列成了性能为180 TFLOPS的四芯片模块,并将64个模块组成一个一共有256片TPU v2集成的TPU v2 Pod,理论峰值计算量达到了11.5 PFLOPS。 •TPU v3是对TPU2的温和重新设计,采用相同的技术,MXU和HBM容量增加了两倍,时钟速率、内存带宽和ICI带宽增加了1.3倍,同时Pod规模翻了四倍到1024个芯片;此外TPU v3引入液冷以降低功耗。 TPUTPU架架构构迭迭代代:v7:v7性性能能大大幅幅提提升升 ◼TPUv4后采用3D Torus架构。 •TPU v4为谷歌2021年发布,定位服务器推理和训练芯片,芯片数量是TPUv3的四倍,采用异构架构结构内含SparseCore专用单元。•TPU v7 Ironwood每颗芯片提供4614 teraflops的FP8性能,计算能力比TPU v5p提升超过十倍,峰值带宽达7.4 TB/s,容量为192GiB。芯片架构包括多个协调工作的专用组件,TensorCore提供高性能向量和矩阵计算,第四代SparseCore处理嵌入和集合卸载操作,芯片具备1.2 TB/s的输入/输出能力,支持扩展到9216颗芯片。 OCSOCS交交换换机机提提升升TTPUPU集集群群效效率率 ◼架构上,谷歌借助OCS组网提高了集群整体效率。具体来看,虽然谷歌TPU与英伟达单卡性能仍有差距,但在系统级维度,OCS带来的网络重构与规模效应,部分抵消了单卡差距,到v5p/v6e阶段,谷歌可借助超大Pod(v5p单Pod 8960芯片)+ OCS重构继续放大总吞吐与集群效率。 ◼TPU与NVIDIA GPU的差距以TPU v4为分界点可以分成“引入OCS之前/引入OCS之后”两个阶段。早期TPU(TPU v2/v3时代)更像是“以单卡性能为基础、靠固定电互联做平面扩展”的路线,v3的典型集群规模约为1024芯片/Pod,互联以电连接为主,单卡算力与显存/带宽层面整体落后于在当时的NVIDIA旗舰,系统可重构性也有限;TPU v4的单Pod规模直接拉升至4096芯片,并能在3D Torus等拓扑间按需重构,根据谷歌论文,对比A100,相近规模的系统上TPU v4集群性能高1.2×–1.7×、功耗低1.3×–1.9;目前,Gemini 2.5 Pro借助TPU v5p进行训练,同时v6e已经发布,相比而言,虽然单卡维度上NVIDIA仍有优势,但系统维度上谷歌借助超大规模集群利用OCS将效率大大提升。 OCSOCS交交换换机机提提升升TTPUPU集集群群效效率率 ◼TPU v4、v5p及v7均采用“4×4×4立方体构建块”(Cube)作为核心架构单元:立方体内的T