您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:AI硬件系列报告(一):OCS光交换机:AI算力集群时代的新蓝海 - 发现报告

AI硬件系列报告(一):OCS光交换机:AI算力集群时代的新蓝海

电子设备2025-12-08陈耀波、闫春旭华安证券飞***
AI硬件系列报告(一):OCS光交换机:AI算力集群时代的新蓝海

AI硬件系列报告(一)—— OCS光交换机:AI算力集群时代的新蓝海 分析师:陈耀波(S0010523060001)联系人:闫春旭(S0010125060002) 华安证券研究所 华安研究•拓展投资价值 核心观点: ⚫AI大模型训练对通信带宽、时延和功耗要求极高,OCS凭借其高带宽、低延迟特性成为理想互联解决方案。OCS(Optical Circuit Switch,光交换机)是一种基于全光信号的交换设备,通过配置光交换矩阵在输入与输出端口间建立光学路径,实现信号交换。相比传统电交换机,OCS无需光电转换和数据包处理,具备低延迟、低功耗、高可靠性的优势,且支持跨代设备无缝互联,延长硬件使用寿命。OCS主要应用于AI算力集群的三大场景:Scale-Up(单节点性能强化,如谷歌TPUv4集群)、Scale-Out(多节点协同,如谷歌Jupiter架构)和Scale-Across(跨数据中心互联,如英伟达DCI)。我们测算,在谷歌TPU集群中,一个包含4096个TPU v4芯片的集群需配备48台136端口的OCS光交换机,TPU与OCS比例约为85:1;未来TPU v7集群规模扩大至9216芯片时,因采用更高密度的320端口OCS,仍仅需48台,比例提升至192:1,凸显其扩展效率。 ⚫谷歌等海外厂商引领下,全球OCS光交换机市场有望迎来高速成长期。全球OCS光交换机市场规模将从2020年的0.7亿美元增长至2025年的7.8亿美元,年复合增长率达62%;预计到2031年市场规模将达20.2亿美元,2025–2031年复合增长率约17.2%。目前市场竞争集中,2025年前四大厂商占据约69%份额,谷歌、Coherent等为主要参与者。 ⚫OCS产业链分为上游核心器件、中游设备集成与下游应用,技术壁垒高,市场参与者多集中于单一环节。上游核心是MEMS微镜阵列等光器件(代表厂商如赛微电子),中游由国际厂商主导设备集成(如Lumentum),国内光库科技等参与代工与方案定制;下游需求则集中于谷歌等巨头的AI数据中心,驱动其在高性能计算中的规模应用。上游核心器件是产业链技术壁垒最高的环节,价值量占比高。 ⚫建议关注: •英唐智控以电子元器件分销为基础,正向半导体设计与制造逐步拓展。公司2025年拟收购桂林光隆集成,强化OCS全制程布局。英唐智控子公司英唐微技术已具备MEMS微振镜研发与量产能力,产品覆盖4mm、1mm、1.6mm等多种规格,2025年4mm产品已在工业领域实现批量订单。公司拟通过整合光隆集成的光开关、OCS系统等技术打造OCS全制程平台,有望在AI算力集群建设的高速扩展中打开新成长空间。 •赛微电子为国内MEMS工艺开发与晶圆制造领军者,掌握硅通孔、晶圆键合等核心工艺,客户覆盖激光雷达、AI计算等领域。2023年起瑞典Silex(原全资子公司)开始量产MEMS-OCS,2025年北京Fab3启动MEMS-OCS小批量试产。公司营收中MEMS业务占比达83%,2024年毛利率提升至35.1%。随着AI算力需求扩张,赛微电子在MEMS微镜阵列等核心部件的工艺优势有望转化为业绩弹性,受益于行业高速增长。 ⚫风险提示:OCS渗透率不及预期风险,MEMS等光交换技术迭代不及预期风险,市场需求不及预期风险,市场竞争加剧风险,公司收购失败风险,客户验证风险,公司产能爬坡不及预期风险等。资料来源:华安证券研究所 1、什么是OCS光交换机? 1.1什么是光交换机(OCS)? ⚫光交换机(Optical Circuit Switch, OCS)指的是基于全光信号的交换机设备,其工作原理是通过配置光交换矩阵,从而在任意输入和输出端口间建立光学路径以实现信号的交换。相较于电交换机,OCS无需光电信号转换和相应的数据包处理过程,可显著降低时延和功耗,系统故障概率也有所降低,且OCS无需进行端口速率的频繁迭代,通过单纯的光路重定向即可实现跨代设备的无缝互联,可大幅提高硬件使用寿命。 •电交换机(EPS)就像繁忙的邮局:当数据包(信件)抵达时,邮递员(交换机处理器)需要先读取地址信息(数据包头),再对信件进行分类,最后将其重新纳入邮件流继续传输。这种读取、分类和重定向的过程不仅会造成延迟,还会消耗大量电能。这就是所谓的光-电-光转换。 •光电路交换机(OCS)则如同自动化铁路调车场:当列车(光信号)抵达时,系统仅需重新配置物理轨道,即可创建从起点到终点之间的直达且不间断的传输路径,无需开启车厢或读取内容,数据便能沿着专用物理线路以光速传输。这种设计彻底消除了传统光-电-光转换过程中存在的延迟与能耗问题。 资料来源:观研天下、智研咨询、光算圈、迅石光通讯网、华安证券研究所 1.2 AI大模型持续迭代,Scale-Up/Scale-Out/Scale-Arcoss场景催生OCS需求 ⚫AI网络架构分为Scale-Up、Scale-Out、Scale-Across三种。 •纵向扩展(Scale-Up):单节点性能的垂直强化,典型方式为增加柜内GPU数量、提升机柜内存容量/吞吐量等。 •跨数据中心扩展(Scale-Across):将地理上分散的多个数据中心互联成更大规模的超级AI工厂,使其协同运行单一AI任务。 华安研究•拓展投资价值 1.2 AI大模型持续迭代,Scale-Up/Scale-Out/Scale-Across场景催生OCS需求 ⚫AI大模型训练需要海量GPU/TPU协同计算,对通信传输带宽、时延、功耗提出了极高要求,而OCS技术凭借其高带宽、低延迟、低功耗的特性,完美适配AI算力集群中Scale-up(例如:谷歌TPUv4集群)、Scale-out(例如:谷歌在Jupiter架构引入OCS替代Spine层)和Scale-across(例如:英伟达DCI跨数据中心互联)对高效、灵活互联的核心需求。 1.3 OCS光交换机有哪几种技术路线? ⚫光交换技术一般可分为MEMS、数字液晶、直接光束偏转DLBS、硅光波导技术四类。 ⚫MEMS技术:系统由输入/输出光纤准直器阵列(FAU)和MEMS微镜阵列构成完整的N×N光开关矩阵。工作原理是通过电信号精确控制镜的二维转角度,将输入光信号准导向目标出口。MEMS微镜采用半导体工艺制造,镜面直径约数百微米,主要采用静电梳齿驱动方式,通过调节偏置电压实现精确的角度控制。这是目前市场上的主流技术,市场份额超过70%,技术成熟度高,端口扩展能力强,具有性能与成本的均衡性。谷歌和Lumentum等厂商均以MEMS方案为主。Lumentum是谷歌OCS的关键合作伙伴,不仅是现阶段的供应商之一,还是谷歌下一代OCS方案的潜在整机提供商。 华安研究•拓展投资价值 1.3 OCS光交换机有哪几种技术路线? ⚫数字液晶(DLC)/硅基液晶(LCoS)技术:利用外加电场改变液晶分子排列,从而影响入射光的偏振状态,再配合偏振分束器来实现光路的切换。输入光会被分解为横向和纵向两个偏振分量,在光开关中分别进行处理,最后在输出端重新合并。数字/硅基液晶方案无运动部件,成本较低;但其切换速度较慢,适用于无需频繁切换的场景。Coherent是该方案的主要推动者,既有DLC又有LCoS技术方案布局,产品较为成熟。 华安研究•拓展投资价值 1.3 OCS光交换机有哪几种技术路线? ⚫直接光束偏转CLBS技术(又称压电陶瓷方案):利用压电陶瓷在电压控制下能够沿某一轴向发生尺寸变化的特性实现光路的交换。该方案采用压电陶瓷驱动器直接控制光纤准直器的空间位置和角度,通过机电耦合效应产生微位移,使输入输出端口的准直器实现精确对准。该技术光路简洁,传输损耗较低,但随着端口数增加,大角度对准时的机械位移需求会制约扩展规模。该方案的主要推动者为Polatis。 ⚫硅光波导:在硅基芯片上构建出结构确定的光路矩阵,光信号沿着预设的路径传输。理论上其切换速度可以达到微秒甚至纳秒级别。目前面临的主要问题是损耗较高,而且在多通道场景下容易产生串扰和可靠性问题。光波导方案适合高密度集成应用,当前尚未大规模商用,主要由iPronics等公司推动。 附录:四种光交换技术特点及代表厂商总结 2、AI数据中心需要多少OCS光交换机?——以谷歌Scale-up场景为例 2.1OCS是如何实现TPU Cube之间的互连的? ⚫单Tray包含4个TPU芯片,芯片间通过ICI互连。 华安研究•拓展投资价值 2.2OCS是如何实现TPU Cube之间的互连的? ⚫单Rack(又称Cube)包含64(4×4×4)个TPU v4芯片:单芯片采用3D环面拓扑结构,每芯片在网格中与其六个相邻节点(上、下、左、右、前、后)相连,并在三个维度(X、Y、Z轴)上各自形成闭环。立方体内部的连接通过PCB及铜缆实现,外部连接则使用光模块和OCS。 华安研究•拓展投资价值 2.3OCS是如何实现TPU Cube之间的互连的? 4096集群中,8 Rack互连示意图 ⚫Superpod特指仅通过ICI和OCS互联的最大TPU集群规模。TPU v4 Super POD由64个Rack构成,实现4096(64×64)个TPU v4芯片的互连。到TPU v7,Super POD集群有望扩展至144个Cube,也就是9216个(144×64)TPU v7芯片互连。 资料来源:Google、Baihai IDP、光芯、SemiAnalysis、逍遥科技、华安证券研究所 华安研究•拓展投资价值 2.4OCS是如何实现Cube间的互连的? ⚫Cube内部通过铜缆背板、PCB进行极高速的电信号通信,外部通过OCS走光纤链路。为了提供3D环面网络所需的环绕链接,相对的两个面上的链接必须连接到同一个光电路交换机。 •如右图,TPU (4,1,4)在Z+方向上没有内部相邻的TPU,因此它将使用一个800G光收发器,通过光纤连接至分配给Z轴的光路交换机(OCS),该OCS被配置为将此连接导向立方体的Z-侧,从而连接到TPU (4,1,1)。 ⚫一个机架有6个外立面,每个外立面引出16条光互联链路,合计96条光互联链路。64个机架,96*64=6144条光互联链路;144个机架,合计13824(144*96)条光互联链路。 ⚫TPU v4集群采用136×136端口配置(含8个冗余端口)的OCS光交换机,故所需OCS数量为6144/(136-8)=48台;而v7集群有望采用320×320端口配置(含32个冗余端口)的OCS,故所需OCS数量为13824/(320-32)=48台。 ⚫即,4096个TPU v4组成的集群中,TPU数量和OCS光交换机的比例约为85:1;9216个TPU v7组成的集群中,该比例为192:1。 资料来源:SemiAnalysis、Google Research、金融界观点、新浪财经、Jouppi, et al.《TPUv4: AnOptically ReconfigurableSupercomputer for Machine Learning with Hardware Support for Embeddings》、架构师技术联盟、全产业链研究院、华安证券研究所 华安研究•拓展投资价值 2.5Google强势引领,全球OCS市场规模高速增长 ⚫根据QYResearch数据,2020-2025年全球OCS光交换机市场规模将由0.7亿美元增至7.8亿美元,5年CAGR达62%;预计2031年全球OCS光交换机市场规模将达20.2亿美元,2025-2031年复合增长率达17.2%。全球范围内OCS光交换机生产商主要包括Google、Huber+Suhner、Coherent、Calient、iPronics等。2025年,全球前四大厂商占有大约69.0%的市场份额。 3、OCS光交换机产业链受益环节有哪些?——以谷歌MEMS OCS为例 3.1 OCS产业链长,市场参与者多集中