您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:【国君通信】AI光互联一往无前,推理需求将扭转云颓势 - 发现报告

【国君通信】AI光互联一往无前,推理需求将扭转云颓势

AI智能总结
查看更多
【国君通信】AI光互联一往无前,推理需求将扭转云颓势

点击“蓝字”,关注我们 加关注 投资观点 训练和推理辩证统一,不存在算力投入断点。本轮AI训练和推理需求,分别对应云计算时代B端企业上云,和C端爆款app应用,最终都将面向广阔的B端、C端用户,本质上是辩证统一,不存在需求断点。此外,巨头从IT设备自用到云基础设施能力外溢提供云服务摸索了5-10年,然而AI爆发下巨头们基本是在很短的时间内同时决定做两方面的部署,投入的规模预判强度将比云计算时代更大。此外,我们认为未来实现超越历史的高增长具备可能性。AI爆发以前,数通光模块全球市场仅50亿美金,而北美四大厂2022年度资本开支就达到1500亿美金的,光模块金额仅占3%。因此,只要云厂商未来几年在资本开支结构上往光模块有所倾斜,增量都是巨大的。 AI芯片取代交换机芯片,成为加速光模块升级的主力军。云计算时代,传统我们认为随着全球仅有的博通交换机芯片升级,数通光模块稳定的经历3年一代升级路径。但AI浪潮刺激下,具有产业号召力的AI芯片供应商比交换机芯片厂商更多,不同代的产品迭代间隔明显缩短到2年以内,芯片互联速率动辄上百GB,需要匹配最高速的光模块。当前时点,我们认为当前1.6T产业链雏形已现,有望在AI迭代的加速下在2024H2或2025年看到规模需求。 推理爆发初见端倪,云需求颓势将得到扭转。我们分析了Meta推理芯片MTIAv1的性能指标,以及其使用的网络结构。可以看到,Meta数据中心推理服务器的需求成数十倍的增长,在此背景下,Meta自研的MTIAv1芯片采用100G的网卡,同时在具备中低复杂度的模型中表现要比H100更优,而在高复杂度的情况下仍有不足。我们认为短期看推理服务器需求爆发,相当于传统意义上100G/200G/400G模块端口云需求的补充,中期看,推理芯片也将快速迭代,进一步将带动光模块、网络设备更快升级。 投资建议:重点关注数通产业链和算力网络链:1)数通光模块核心标的:新易盛、天孚通信、光迅科技;2)稀缺的光芯片突破企业:光库科技,仕佳光子;3)有望突破的模块企业,受益标的:剑桥科技、博创科技、华工科技。 风险提示:AI训练需求不及预期;北美资本开支不及预期 1.本轮光模块爆发,迭代更快、持续更久 资本市场喜欢将AI带来的光模块需求爆发与2017-2018的全球云计算需求爆发进行对比,认为2025年可见度不高。参考历史,当时的云需求爆发带来的高资本开支持续了大概6个季度,因此大家同样担心2024年是训练需求带来的一个高峰,2025年光模块等网络设备的需求可能大幅下滑,主要的依据是现在没有看到爆款的推理应用,投入绝对值在训练高峰过后AI投资的需求会回落。 我们认为,本轮的需求爆发才刚刚开始,持续的时间也将比上一轮更长,需求侧,本轮AI推理和训练的需求,分别对应云计算时代C端4G流量应用的推广和B端中小企业上云,来自C端和B端的AI算力的增长如流量般源源不断;供给侧,AI芯片的重要性逐渐显现,参与玩家众多,交换机芯片升级的3年一周期定律有望打破,1.6T光模块迭代速度明显加快,在产业链已经较为完整下将更好接续2025年及以后光模块需求。本轮AI浪潮下不同的供需的特性决定了至少未来2-3年的高景气。 1.1.相同点:下游商业模式和爆发逻辑都有巨大的相通性 C端需求的模式具有极大的相通性。云计算爆发的时代主要集中在2016-2019H1年,其中C端流量需求的爆发与4G技术普及有极大的关系。以国内为例,C端陆续出现了王者荣耀、抖音快手等现象级应用,完美的契合了4G技术的国内部署。C端流量的爆发模型为:4G用户数*用户时长。而本轮AI的行情,市场较为一致的认知是C端AIChatgpt类应用赋能已有的app应用,因此爆发的模型为用户数*交互Token数。因此,我们可以认为,当前C端推理的需求可以等同为当时的应用app端的需求逻辑。 B端需求的逻辑也有极大的共通性。云计算时代B端的需求是企业的上云,如公有云、混合云等,本质上是云厂商在满足自身业务的云化需求后,再对外外溢自身的云基础设施的能力。本轮AI算力基础设施逻辑也相同,本质上是先满足自身各类大模型的训练需求后,再寻求将算力接口或训练推理能力进行外溢,供广大AI企业、应用企业进行使用。 C端与B端需求是辩证统一的,本质上无须区分训练和推理,算力需求不会出现断点。C端应用获得的AI服务本质上也是B端企业应用提供的,而B端中小企业又会去找AWS、微软等巨头们调用模型或租用训练、推理算力资源。正如7年前,云计算的需求在2016年爆发以后仍在持续高速的增长,因为在大厂把自己业务上云后,有无数的中小企业产生持续不断的上云需求;当前的AI需求也是类似,无论是中小企业模型训练、大模型调用、推理,还是云巨头自身对大模型的不断迭代训练和推出配套服务,都需要巨头们持续投入AI算力基础设施。 1.2.差异点:AI芯片重要性显现,错期迭代加快光模块升级 云计算时代,交换芯片容量的升级每三年一代,带动光模块速率不断提升。由于交换机容量在快速提升,对于1RU的交换机端口,单端口速率就有较强的提升动力。2012年,数据中心开始使用40G模块,接入侧采用10G模块;2016年数据中心叶脊开始使用100G模块,接入侧采用25G模块;2019年,数据中心服务器接入侧开始使用100G模块,叶脊交换机开始使用200G/400G模块,可以清晰的看到,光模块的迭代节奏与交换机芯片的benchmark十分相似。 AI芯片军备竞赛百花齐放,光模块错期升级的需求将快速显现,我们认为短期内最先进的AI芯片互联速率将成为主导光模块升级的催化剂。传统交换机芯片供应商仅博通、思科等厂商,路径规划较为单一;但AI芯片领域参与者众多,具有影响力的巨头较多,光模块的升级周期有望更为错期和缩短。例如,Nvidia采用的A100和H100,分别使用200G/400G的网卡,其互联速率也有1.5倍的提升,而芯片推出的时间点差异小于3年。谷歌的TPUv4与A100对标,单个ICI速率也达到50GB,匹配400GOSFP的光模块,而TPUv3和TPUv4部署时间分别为2018和2020年,同样小于3年。同时谷歌论文中暗示可能在不久将推出TPUv5,我们预计制程和互联速率可能都有进一步提升。AWS、Meta等都在自研推理和训练芯片,互联速率将进一步提升。 1.3.总结:2024年及往后光模块市场将出现远超历史级别的增长 超越历史级别的增长具备较大理论可能性。AI爆发以前,数通光模块全球市场仅50亿美金,占北美四大厂2022年度资本开支1500亿美金的3%,只要资本开支结构上往光模块、交换机等网络设备有所倾斜几个百分点,贡献的增量都是巨大的。 1.6T光模块可能加速进入视野,技术迭代有望明显加快。光模块占数据中心、超算中心AI集群建设的价值量比例太小,但其性能、端口速率可靠太重要,下游厂商不会因为AI昂贵而减少对光模块性能的追求,反而会变本加厉的追求技术创新和迭代,因此我们预计1.6T等光模块产业链的逐步成熟,1.6T方案有可能随着更快的AI芯片迭代,在2024H2到2025年实现加速的导入。 2.推理爆发初见端倪,云需求颓势将补充扭转 2.1.模型复杂度增加,推理需求已暗中爆发 AI模型参数和复杂度的快速增长对Meta大规模的训练和推理的硬件造成了巨大的挑战。从Meta的推理模型的变化趋势可以看出,模型的计算要求(GFLOPS/sample,蓝色虚线)和模型的存储要求(对应ModelSize,蓝色实线)的增长成指数级。 对于数据中心运营者来说,用于推理和训练的硬件要参考总成本,而传统CPU不具有性价比。TCO(总拥有成本)是限制数据中心应用高参数模型的一个主要因素,而其中电力是TCO的主要成本来源,因此性能/TCO是用来评估数据中心推理和训练硬件的一个重要指标,具有优异的性能和较低的功耗的GPU/ASIC才能够脱颖而出为数据中心的运营带来效益。Meta以前主要用CPU来支撑推理需求,但随着模型计算和存储需求的指数级增长,CPU并不具有性价比,IntelNNPI推理加速器也并不能满足需求,因此Meta的推理服务器近年的增量主要来自GPU服务器。 2.2.Meta自研MTIAv1芯片,满足高效能推理 Meta针对推理的需求自研MTIA芯片,MTIAv1芯片采用台积电7nm工艺,具有较低功耗。第一代芯片MTIAv1于2020年开始设计,其采用台积电7nm制程工艺,运行频率800MHz,TDP热功耗仅为25W,INT8整数运算能力为102.4TOPS,FP16浮点运算能力为51.2TFLOPS。 和NvidiaH100对比:单位功耗算力比较下,MTIAv1服务器效能和DGXH100系统持平,而中低复杂度下能效比更有优势。MTIAv1芯片的单卡功耗为35W,搭载12个MTIAv1芯片的YosemiteV3平台系统功耗为780W,INT8算力为1248TOPS,效能为每瓦特1.58TOPS。NvidiaH100的单卡功耗为700W,单卡INT8精度算力为2000TOPS,搭载8个H100的DGX系统功耗为10200w,系统INT8精度算力16000TOPS,效能为每瓦特1.57TOPS,同时MTIAv1芯片针对MetaPlatforms的DLRM和PyTorch框架进行了优化。DLRM深度学习推荐模型 (DeepLearningRecommendationModels)是Meta自研的一种应用深度学习技术来构建推荐系统的方法,Meta应用不同复杂度的DLRM模型来测试不同芯片推理的性能。在能效比方面,MTIA芯片在处理低复杂度、中复杂度模型方面可以优于传统GPU,但是在高复杂度模型方面稍显落后,需要进一步优化。 总结:推理流量爆发,会带动Meta等大厂推理服务器的更大发展,短期看相当于传统100G/200G/400G需求的补充,中期看代际迭代更快,将带动光模块、网络设备更快升级。MTIAv1目前采用100G网卡,和传统云服务器对标,但未来用量和速率的提升将带来更快增量。目前MTIAv1仅仅应用在Meta的DLRM推荐算法模型中用于模型的推理,且目前芯片硬件架构及软件堆栈都有十足的优化空间,随着未来Meta迭代新的MTIA芯片以及将该推理芯片应用于自研的大模型及算法如SAM模型等,网卡端将会迎来用量和速率并升的逻辑,来支撑Meta作为超大规模数据中心拥有方对于提升效能的需求。 3.上周AI要闻一览(0703-0710) 【国内:2023世界人工智能大会在上海举行,埃隆马斯克在开幕式上发言】由上海市人民政府和国家发改委、工信部、科技部、国家网信办、中国科学院、中国工程院、中国科协等七部门共同主办的2023世界人工智能大会,于7月6日至8日在上海举行,并在浦东张江、徐汇西岸设分会场,同步在闵行等产业集聚区开展同期活动。本届大会以“智联世界生成未来”为主题,会议活动总体架构按照“1+1+2+10+N”设置,即1场开幕式、1场闭幕式、科技创新和产业发展2场全体会议、10场主题论坛,以及N场生态论坛。埃隆马斯克在大会上应邀线上发言,讲述了特斯拉的Optimus人形机器人目前仍处于早期开发阶段,但未来将会有更多的机器人问世,需要考虑机器人与人类的数量比例。根据现有情况,机器人的数量将超过人类的数量,它们的计算能力也会远远超过人类。这似乎是未来的发展趋势。 点评:世界人工智能大会的热潮和关注度说明了国家、企业、个人对于人工智能产业的重视,而马斯克的发言似乎也预示了机器人将在不久的未来降入到社会中来和人类一起生活,国内的人工智能产业仍有很大的发展空间,单动上下游产业链如光通信等一起高速发展。 用户开 【全球:GPT-4API向付费用户全面开放,代码解释器CodeInterpreter功能将向所有ChatGPTPlus 放】7月7日,OpenAI在官网宣布,GPT-4API全面开放使用。现所有付费API用户都可直接访问8K上下文的GPT-4,无需任何等待,OpenA