您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:通信:全球算力共振,国内新连接开启 - 发现报告

通信:全球算力共振,国内新连接开启

信息技术2024-04-08王彦龙、黎明聪国泰君安证券杨***
通信:全球算力共振,国内新连接开启

姓名:王彦龙(分析师)姓名:黎明聪(分析师) 邮箱:wangyanlong@gtjas.com邮箱:limingcong@gtjas.com 电话:010-83939775电话:0755-23976500 证书编号:S0880519100003证书编号:S0880523080008 LPOCPO AI AI 。 DCI 5G-A 请参阅附注免责声明1 / 请参阅附注免责声明2 请参阅附注免责声明3 NVDAGB200 •光模块数量和比例取决于不同组网方式和计算单元,差异较大,最终整体需求取决于不同组合的销售占比情况,总 体仍然会有强有力的需求。 表:NVDA新一代GPU集群架构情况 数据来源:英伟达发布会,国泰君安证券研究 请参阅附注免责声明4 GoogleTPUv4TPUv5 •谷歌自研TPU系列作为训练芯片,其中其2023年6.17ISCA的论文提到90%的训练在TPU上进行。 •2020年开始部署TPUv4,对应400G光模块,而我们预计当前已 经开始部署TPUv5,对应800G光模块。 •一个TPUv4Package有16个OSFP连接口,作为外部的ICI互联。,每个TPUv4有6个ICIlink,16个Package组成一个机柜(Rack),一共有64个机柜,按8*8去排列。 图:TPUv4封装形态 数据来源:谷歌 图:1个4096集群里64个机柜中的8个图示 数据来源:谷歌 请参阅附注免责声明5 GoogleOCSMEMs136*136 •机柜与机柜间的连接要经过OCS,全称OpticalCircuitSwitch,是谷歌自研的光交换机。 •谷歌OCS交换机成为Palomar,拥有136*136个端口交互能力,用MEMS阵列控制光路输入输出。 •应用中,一般128个通道是工作通道,8个是测试通道。 图:OCS实际架构群图:OCS原理图 数据来源:谷歌 数据来源:谷歌 请参阅附注免责声明6 AWSTrainium2DTorusNeuronLink-v2 •AWSTrainium是AWS专门为超过1000亿个参数模型的深度学习训练打造的第二代机器学习(ML)加速器。 •每个加速器包括2个NeuronCore,具备32GBHBM内存,提供190TFLOPS的FP16/BF16,380INT8TOPS,47.5FP32TFLOPS •卡间互联网络采用NeuronLink-v2,类似于NVLink,互联速率达到384GB,比A100300GB要高。 图:大模型时代算力需求增长超越摩尔定律图:Trn1/Trn1n服务器内卡间互联采用2DTorus拓扑结构 数据来源:AWS官网 数据来源:AWS官网 请参阅附注免责声明7 AWSTrainiumH100A100TrainiumEC2UltraClusters •EC2UltraClusters是可以扩展到数千张GPU或者ML加速器,例如AWSTranium、H100、A100的集群 •EC2允许扩展到20000H100,A100则是仅扩展到4000张,Trainium可以扩展至30000张。 UltraCluster AIAccelarator Maxium Networking 总算力 P4 A100 10000 400Gb/s 3Eflops P5 H100 20000 3200Gb/s 20Eflops Trn1 Trainium 30000 800Gb/s或1.6T/s 6Eflops 图:UltraCluster允许进行non-blocking大量组网表:不同类型AI芯片组网情况 数据来源:AWS官网 数据来源:AWS官网,国泰君安证券研究 请参阅附注免责声明8 METAMTIA •Meta自研的MTIA芯片当前仅使用100G总带宽,而卡间互联还是使用PCIEGEN4。 •也可以看到,在云厂商中8个A100的方案大部分采用400G的总带宽接入,而不是Nvidia的1.6T。 表:Meta的MITA推理服务器目前采用100G网卡表:MTIA性能指标 数据来源:MTIA数据来源:MTIA 请参阅附注免责声明9 IntelGaudi22.4T82.4T •每个OAM非卡间互联带宽为300GRoCE,8张卡对应8*300G对应6个QSFP-DD1连接口,即每个QSFP-DD为400G。 •如果构建成二层、三层400G网络集群则对应卡:400G光模块=1:4.5 图:8-OAM的Gaudi服务器需要2.4T接入带宽图:8-OAM的Gaudi服务器需要6个QSFP-DD口 数据来源:Baudi2白皮书 数据来源:Baudi2白皮书 请参阅附注免责声明10 表:Atlas900PoD技术参数 Atlas900PoD 9000 47U CPU 32*920 CPU •256DDR4RDIMM •32GB/64GB AI 64* 64*2.5 RAID RAID0/1 •63+3380V,32A•42+2380V,32A46kW •5℃40℃41℉104℉ ≤1800m ASHRAEClassA2/A3/A4 H*W*D •2250mm600mm1500mm•2410mm980mm1455mm •昇腾910B作为AI处理器,是构成Atlas900PoD集群的核心组件之一。 Atlas900PoD通过集成昇腾910B等AI处理器,构建出一个强大的AI 训练集群,提供高性能的AI计算能力。 •Atlas900PoD(型号:9000)是基于华为鲲鹏+昇腾处理器的AI训练集群基础单元,具有超强AI算力、更优AI能效、极佳AI拓展等特点。 该基础单元广泛应用于深度学习模型开发和训练,适用于智慧城市、 智慧医疗、天文探索、石油勘探等需要大AI算力的领域。 图:华为昇腾计算产品 数据来源:华为官网 数据来源:华为官网 请参阅附注免责声明11 800 •含光800是平头哥发布的首颗数据中心芯片。含光800是一颗高性能人工智能推理芯片,基于12nm工艺,集成170亿 晶体管,性能峰值算力达820TOPS,推理性能达到78563IPS,能效比达500IPS/W。 •含光800采用平头哥自研架构,通过软硬件协同设计实现性能突破。平头哥自主研发的人工智能芯片软件开发包,让含光800芯片在开发深度学习应用时可以获得高吞吐量和低延迟的高性能体验。含光800已成功应用在数据中心、边缘服务器等场景。 图:含光800NPU/NPU核架构图图:含光800核心参数 数据来源:平头哥官网数据来源:平头哥官网 请参阅附注免责声明12 请参阅附注免责声明13 1.6TAI1.6T2024H2 •传统数通市场受益于交换机芯片3年一代的升级周期,速率端口基本上3年升级一倍; •受益于AI芯片的快速迭代和上量,预计端口速率升级翻倍的时间将缩短至2年以内。 图:预计2024H2和2025年将开始出现1.6T端口需求 数据来源:半导体行业观察,Semianalysis,Nvidia路线图 图:谷歌在论文中预计2024年开始会出现1.6T光模块的需求 数据来源:MissionApollo:LandingOpticalCircuitSwitchingatDatacenterScale 请参阅附注免责声明14 1.6T •OFC2024,Broadcom、Lumentum等大厂展出200GEML、DSP和配套激光芯片驱动器。 •国内众多厂商在2024年OFC上展出了1.6T光模块,头部厂商研发领先优势较为明显。 表:OFC2023上200G/Lane供应链逐渐成熟 核心物料 供应厂商 产品 激光器芯片 Ⅱ-Ⅵ 200GEML Coherent 200GInPEML 索尔思 200GPAM4EML Sumitomo 200GEML Lumentum 200GPAM4EML Semtech 200GPAM4PMDEML驱动器 Broadcom 200GUncooledEML DSP芯片 Ciena 1.6TWaveLogic6Extreme(WL6e) Marvell 1.6TNovaPAM4200G/λ Broadcom 1.6TPAM-4PMD,BCM85852,BCM87850 模块 新易盛 OSFP-XDDR8 中际旭创 OSFP-XDDR8+可插拔光通信模块 光迅科技 OSFP-XDDR8 索尔思 OSFP-XDDR8 Coherent OSFP-XDDR8 SenkoAdvancedComponents OSFP-XDDR8 AEC Credo 1.6TbOSFP-XDHiWireCLOS有源电缆 ColorChip 1.6TOSFP-XDAEC MCB,HCB与热负载及控制器板 Multilane OSFP-XDMCB,OSFP-XDHCB 数据来源:讯石,国泰君安证券研究 请参阅附注免责声明15 •硅光技术是利用现有集成电路CMOS工艺在硅基材料上进行光电子器件的开发和集成。 •与分立器件方案不同,硅光技术的集成度更高,封装形态也更加简化。 图:传统光模块方案(左)vs硅光光模块(中)及硅光芯片(右) 表:我们预计硅光技术在800G模块中渗透将明显上升 电口速率 光口速率 4通道 8通道 16通道 112Gserdes 100G/lane 400G非硅光 800G非硅光or硅光 1.6TOSFP-XD硅光 200G/lane 800G非硅光or硅光 1.6T非硅光or硅光 3.2TCPO硅光 224GSerdes 200G/lane 800G非硅光or硅光 1.6T非硅光or硅光 3.2TCPO硅光 数据来源:ICCSZ,国泰君安证券研究 请参阅附注免责声明16 •硅光芯片晶圆利用率高,可以复用CMOS集成电路较为成熟的产业链,上量后边际成本低。 •硅光的应用取决于客户接受度,而我们认为AI驱动的光模块需求爆发供应紧缺下,客户对硅光的接受度有望提升。 类别 硅光 传统lnP 晶圆尺寸 8-12’ 2-3’ 工艺精度 65nm-250nm 0.3-0.5um 集成度 耦合器、波导、调制器、和波器、探测器、分束器、Driver、LA、CDR单片集成 难实现高密度集成 工厂维护 代工生产 自有Fab 产业链 成熟 相对不成熟 芯片良率 >80% <40% 成本 量大可以很低 受限于良率和固定开支 表:硅光在集成度、产业链成熟度、良率、成本等都具有优势表:硅/SOI衬底价格便宜且晶圆尺寸更大 数据来源:ICCSZ,博创科技,国泰君安证券研究 lnP GaAs SOI Si 衬底价格($/cm2) 4.55 1.65 1.3 0.2 功能晶圆价格 ($/cm2) 33.95 27.16 1.3 0.2 最大尺寸(mm) 150 200 450 450 数据来源:ICCSZ,博创科技,国泰君安证券研究 请参阅附注免责声明17 硅光:自研芯片将有较大领先优势,LPO有望助推硅光方案 •Lightcounting预计使用基于SiP的光模块市场份额将从2022年的24%增加到2028年的44%。 •此外Lightcounting认为SiP调制器相较GaAs、LnP材料而言是线性驱动设计的最佳选择,LPO有望加速硅光渗透率进一步提升。 图:部分具有自研硅光芯片能力的模块厂商图:Lightcounting预计硅光市场份额将持续提升 数据来源:国泰君安证券研究 注:Intel在2023年将模块业务给予Jabil进行运营 数据来源:Lightcounting 请参阅附注免责声明18 LPO:整体具备功耗、时延、成本收益 •功耗和成本收益:一般光模块的功耗大约占整机功耗的40%以上,LPO模块主要将光模块DSP去掉,将功能和复杂度交给交换机芯片ASIC,预计将降低设备整体功耗(7nmDSP,