您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:通信设备及服务行业周报:AI系列之Meta芯片解析,AI光互联一往无前,推理需求将扭转云颓势 - 发现报告

通信设备及服务行业周报:AI系列之Meta芯片解析,AI光互联一往无前,推理需求将扭转云颓势

通信设备及服务行业周报:AI系列之Meta芯片解析,AI光互联一往无前,推理需求将扭转云颓势

2023.07.13 股票研究 AI光互联一往无前,推理需求将扭转云颓势 评级: 细分行业评级 通信设备及服务上次评级:增持 行——AI系列之Meta芯片解析 业�彦龙(分析师)黎明聪(研究助理) 报 周010-839397750755-23976500 wangyanlong@gtjas.comlimingcong@gtjas.com 证书编号S0880519100003S0880121080014 本报告导读: 本轮光模块爆发持续时间将较长,历史级别的增长可期;AI芯片的快速迭代成为新时代光模块升级的主力军 摘要: 训练和推理辩证统一,不存在算力投入断点。本轮AI训练和推理需 求,分别对应云计算时代B端企业上云,和C端爆款app应用,最终都将面向广阔的B端、C端用户,本质上是辩证统一,不存在需求断点。此外,巨头从IT设备自用到云基础设施能力外溢提供云服务摸索了5-10年,然而AI爆发下巨头们基本是在很短的时间内同时决定做两方面的部署,投入的规模预判强度将比云计算时代更大。此外,我们认为未来实现超越历史的高增长具备可能性。AI爆发以前, 证数通光模块全球市场仅50亿美金,而北美四大厂2022年度资本开 相关报告 《AI算力需求正浓,光电互联不止》 2023.07.09 《盈利进一步改善,关注后续电信集采》 2023.07.05 《甲骨文加码AI投入,中兴通讯将发布 GPU服务器》2023.07.02 《6G目标建议书发布,交换机市场增长 强劲》2023.06.25 《400G骨干网年内商用,大丰项目顺利推进》2023.06.18 券支就达到1500亿美金的,光模块金额仅占3%。因此,只要云厂商未 研来几年在资本开支结构上往光模块有所倾斜,增量都是巨大的。究AI芯片取代交换机芯片,成为加速光模块升级的主力军。云计算时报代,传统我们认为随着全球仅有的博通交换机芯片升级,数通光模块告稳定的经历3年一代升级路径。但AI浪潮刺激下,具有产业号召力 的AI芯片供应商比交换机芯片厂商更多,不同代的产品迭代间隔明 显缩短到2年以内,芯片互联速率动辄上百GB,需要匹配最高速的光模块。当前时点,我们认为当前1.6T产业链雏形已现,有望在AI迭代的加速下在2024H2或2025年看到规模需求。 推理爆发初见端倪,云需求颓势将得到扭转。我们分析了Meta推理 芯片MTIAv1的性能指标,以及其使用的网络结构。可以看到,Meta数据中心推理服务器的需求成数十倍的增长,在此背景下,Meta自研的MTIAv1芯片采用100G的网卡,同时在具备中低复杂度的模型中表现要比H100更优,而在高复杂度的情况下仍有不足。我们认为短期看推理服务器需求爆发,相当于传统意义上100G/200G/400G模块端口云需求的补充,中期看,推理芯片也将快速迭代,进一步将带动光模块、网络设备更快升级。 投资建议:重点关注数通产业链和算力网络链:1)数通光模块核心 标的:新易盛、天孚通信、光迅科技;2)稀缺的光芯片突破企业: 光库科技,仕佳光子;3)有望突破的模块企业,受益标的:剑桥科技、博创科技、华工科技。 风险提示:AI训练需求不及预期;北美资本开支不及预期 目录 1.本轮光模块爆发,迭代更快、持续更久3 1.1.相同点:下游商业模式和爆发逻辑都有巨大的相通性3 1.2.差异点:AI芯片重要性显现,错期迭代加快光模块升级4 1.3.总结:2024年及往后光模块市场将出现远超历史级别的增长.52.推理爆发初见端倪,云需求颓势将补充扭转6 2.1.模型复杂度增加,推理需求已暗中爆发6 2.2.Meta自研MTIAv1芯片,满足高效能推理7 3.上周AI要闻一览(0703-0710)9 1.本轮光模块爆发,迭代更快、持续更久 资本市场喜欢将AI带来的光模块需求爆发与2017-2018的全球云计算需求爆发进行对比,认为2025年可见度不高。参考历史,当时的云需求 爆发带来的高资本开支持续了大概6个季度,因此大家同样担心2024年是训练需求带来的一个高峰,2025年光模块等网络设备的需求可能大幅下滑,主要的依据是现在没有看到爆款的推理应用,投入绝对值在训练高峰过后AI投资的需求会回落。 我们认为,本轮的需求爆发才刚刚开始,持续的时间也将比上一轮更长,需求侧,本轮AI推理和训练的需求,分别对应云计算时代C端4G流量应用的推广和B端中小企业上云,来自C端和B端的AI算力的增长如 流量般源源不断;供给侧,AI芯片的重要性逐渐显现,参与玩家众多,交换机芯片升级的3年一周期定律有望打破,1.6T光模块迭代速度明显加快,在产业链已经较为完整下将更好接续2025年及以后光模块需求。本轮AI浪潮下不同的供需的特性决定了至少未来2-3年的高景气。 1.1.相同点:下游商业模式和爆发逻辑都有巨大的相通性 C端需求的模式具有极大的相通性。云计算爆发的时代主要集中在2016-2019H1年,其中C端流量需求的爆发与4G技术普及有极大的关系。以国内为例,C端陆续出现了�者荣耀、抖音快手等现象级应用,完美的 契合了4G技术的国内部署。C端流量的爆发模型为:4G用户数*用户时长。而本轮AI的行情,市场较为一致的认知是C端AIChatgpt类应用赋能已有的app应用,因此爆发的模型为用户数*交互Token数。因此,我们可以认为,当前C端推理的需求可以等同为当时的应用app端的需求逻辑。 图1:我国2017-2018H1移动流量增速最高图2:国内互联网厂商资本开支在同期高速增长 数据来源:工信部,国泰君安证券研究数据来源:公司财报,国泰君安证券研究 B端需求的逻辑也有极大的共通性。云计算时代B端的需求是企业的上云,如公有云、混合云等,本质上是云厂商在满足自身业务的云化需求后,再对外外溢自身的云基础设施的能力。本轮AI算力基础设施逻辑也 相同,本质上是先满足自身各类大模型的训练需求后,再寻求将算力接口或训练推理能力进行外溢,供广大AI企业、应用企业进行使用。 图3:云计算时代和算力时代的同与不同 数据来源:国泰君安证券研究 C端与B端需求是辩证统一的,本质上无须区分训练和推理,算力需求不会出现断点。C端应用获得的AI服务本质上也是B端企业应用提供 的,而B端中小企业又会去找AWS、微软等巨头们调用模型或租用训练、推理算力资源。正如7年前,云计算的需求在2016年爆发以后仍在持续高速的增长,因为在大厂把自己业务上云后,有无数的中小企业产生持续不断的上云需求;当前的AI需求也是类似,无论是中小企业模型训练、大模型调用、推理,还是云巨头自身对大模型的不断迭代训练和推出配套服务,都需要巨头们持续投入AI算力基础设施。 1.2.差异点:AI芯片重要性显现,错期迭代加快光模块升级 云计算时代,交换芯片容量的升级每三年一代,带动光模块速率不断提升。由于交换机容量在快速提升,对于1RU的交换机端口,单端口速率就有较强的提升动力。2012年,数据中心开始使用40G模块,接入侧采 用10G模块;2016年数据中心叶脊开始使用100G模块,接入侧采用25G模块;2019年,数据中心服务器接入侧开始使用100G模块,叶脊交换机开始使用200G/400G模块,可以清晰的看到,光模块的迭代节奏与交换机芯片的benchmark十分相似。 图4:交换机芯片升级的时点往往比光模块升级略早图5:光模块升级的时点与交换机芯片的时点较为吻合 数据来源:Innovium,国泰君安证券研究数据来源:800GMSA白皮书,国泰君安证券研究 AI芯片军备竞赛百花齐放,光模块错期升级的需求将快速显现,我们认 为短期内最先进的AI芯片互联速率将成为主导光模块升级的催化剂。 传统交换机芯片供应商仅博通、思科等厂商,路径规划较为单一;但AI芯片领域参与者众多,具有影响力的巨头较多,光模块的升级周期有望更为错期和缩短。例如,Nvidia采用的A100和H100,分别使用200G/400G的网卡,其互联速率也有1.5倍的提升,而芯片推出的时间点差异小于3年。谷歌的TPUv4与A100对标,单个ICI速率也达到50GB,匹配400GOSFP的光模块,而TPUv3和TPUv4部署时间分别为2018和2020年,同样小于3年。同时谷歌论文中暗示可能在不久将推出TPUv5,我们预计制程和互联速率可能都有进一步提升。AWS、Meta等都在自研推理和训练芯片,互联速率将进一步提升。 图6:NvidiaA100和H100的升级为2020和2022年图7:TPUv3和TPUv4发布时间仅差2年 数据来源:Nvidia数据来源:google论文 1.3.总结:2024年及往后光模块市场将出现远超历史级别的增长 超越历史级别的增长具备较大理论可能性。AI爆发以前,数通光模块全球市场仅50亿美金,占北美四大厂2022年度资本开支1500亿美金的3%,只要资本开支结构上往光模块、交换机等网络设备有所倾斜几个百 分点,贡献的增量都是巨大的。 图8:2022年四大云厂商资本开支1500亿美金 数据来源:公司公告,国泰君安证券研究 1.6T光模块可能加速进入视野,技术迭代有望明显加快。光模块占数据中心、超算中心AI集群建设的价值量比例太小,但其性能、端口速率可 靠太重要,下游厂商不会因为AI昂贵而减少对光模块性能的追求,反而会变本加厉的追求技术创新和迭代,因此我们预计1.6T等光模块产业 链的逐步成熟,1.6T方案有可能随着更快的AI芯片迭代,在2024H2到2025年实现加速的导入。 核心物料 供应厂商 展出时间 产品 Ⅱ-Ⅵ OFC2023 200GEML Coherent OFC2023 200GInPEML 索尔思 OFC2023 200GPAM4EML 激光器芯片 Sumitomo OFC2023 200GEML Lumentum OFC2023 200GPAM4EML Semtech OFC2023 200GPAM4PMDEML Broadcom OFC2023 200GUncooledEML Ciena Feb-23 1.6TWaveLogic6Extreme(WL6e) DSP芯片 Marvell Mar-23 1.6TNovaPAM4200G/λ Broadcom Jan-23 1.6TPAM-4PMD,BCM85852,BCM87850 新易盛 OFC2023 OSFP-XDDR8 中际旭创 OFC2023 OSFP-XDDR8+可插拔光通信模块 光迅科技 OFC2023 OSFP-XDDR8 模块 索尔思 OFC2023 OSFP-XDDR8 Coherent OFC2023 OSFP-XDDR8 SenkoAdvancedComponents OFC2023 OSFP-XDDR8 AEC Credo Oct-22 1.6TbOSFP-XDHiWireCLOS有源电缆 ColorChip OFC2023 1.6TOSFP-XDAEC MCB,HCB与热负载及控制器 Multilane OFC2023 OSFP-XDMCB,OSFP-XDHCB 表1:200G/Lane的产业链已具雏形 板 数据来源:光纤在线,OFC2023,国泰君安证券研究 2.推理爆发初见端倪,云需求颓势将补充扭转 2.1.模型复杂度增加,推理需求已暗中爆发 AI模型参数和复杂度的快速增长对Meta大规模的训练和推理的硬件造成了巨大的挑战。从Meta的推理模型的变化趋势可以看出,模型的计算 要求(GFLOPS/sample,蓝色虚线)和模型的存储要求(对应ModelSize,蓝色实线)的增长成指数级。 图9:推理模型的计算和存储需求变化 数据来源:MTIA:FirstGenerationSiliconTargetingMeta’sRecommendationSystems, Meta 对于数据中心运营者来说,用于推理和训练的硬件要参考总成本,而传统CPU不具有性价比。TCO(总拥有成本)是限制数据中心应用高参