您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中泰证券]:AI系列:光是通信的必由之路,OCS已成功应用 - 发现报告
当前位置:首页/行业研究/报告详情/

AI系列:光是通信的必由之路,OCS已成功应用

信息技术2024-03-12王芳、杨旭、张琼、王九鸿中泰证券严***
AI系列:光是通信的必由之路,OCS已成功应用

1中泰电子王芳团队分析师:王芳执业证书编号:S0740521120002分析师:杨旭执业证书编号:S0740521120001分析师:王九鸿执业证书编号:S0740523110004分析师:张琼执业证书编号:S0740523070004证券研究报告2024年3月12日AI系列:光是通信的必由之路,OCS已成功应用 2摘要◼谷歌大模型持续迭代,亟需算力支撑:2023年12月,谷歌推出自身首个多模态大模型Gemini 1.0,其中高性能版本Gemini Ultra可对标GPT-4,2024年2月16日,谷歌Gemini模型Pro版迭代出1.5版本,该模型在长语境理解方面取得突破,显著增加可处理信息量;2024年2月22日,谷歌推出新型开源模型系列“Gemma”。谷歌不断加速迭代大模型,大模型性能提升除了软件层面优化,更需强大算力支撑◼谷歌自研TPU性能不足,引入OCS光交换机提升计算集群性能:根据公开数据,谷歌训练 Gemini Ultra所使用芯片为TPU v4、TPU v5e,性能无法与英伟达H100相比,TPU v5e峰值算力只有英伟达三年前发布的 A100 的六成,最新版本TPU v5p峰值算力不到H100的三成,在此背景下,谷歌引入OCS光交换机提升整体计算集群性能,可降低功耗和延迟◼谷歌TPU集群的大规模采用将给OCS光交换机产业链公司带来机遇:谷歌TPU集群除谷歌自用外,已在Salesforce和Lightrick等客户大模型训练实现商用,带动OCS光交换机放量,OCS光交换机中的核心部件:MEMS阵列、发射/接收模组及其光学器件、光模块、环形器、850nm光源、光纤及连接器、铜缆等供应商均将受益◼光连接是AI高速传输的必由之路,关注更广泛的光连接产业链:计算设备之间通过光模块和光纤光缆实现连接和数据格式转换,关注光模块产业链(包括上游的光芯片、电芯片、光学器件以及光模块)和光纤光缆产业链◼建议关注:1)OCS光交换机产业链核心标的:✓环形器/波分复用器/光学器件:【腾景科技】✓MEMS阵列代工:【赛微电子】✓光模块:【中际旭创】✓铜缆:长芯盛(【博创科技】收购)✓连接器:【太辰光】✓光源:【光迅科技】、【长光华芯】、纵慧芯光(【华西股份】投资)◼2)广泛的光连接产业,建议关注:✓光芯片:源杰科技、仕佳光子、长光华芯✓光器件:天孚通信、腾景科技、太辰光、光库科技✓光模块:中际旭创、新易盛、光迅科技、博创科技、联特科技、华工科技、立讯精密✓光纤光缆:长飞光纤、亨通光电、中天科技、烽火通信◼风险提示:大模型商业化进程不及预期、全球数据中心资本开支不及预期、全球电信运营商资本开支不及预期、国内外宏观经济下行风险、相关公司国际供应链风险、相关数据更新不及时风险 目 录一、使用光交换机能够显著提升AI超算集群效率二、光交换机产业链增量明显,相关标的受益三、光是AI时代高速传输的必由之路四、投资建议及风险提示3 4来源:谷歌官网,中泰证券研究所谷歌为何要发展OCS光交换机:提升计算集群性能支撑大模型◼2023年12月7日,谷歌推出自身首个多模态大模型Gemini 1.0,其中高性能版本Gemini Ultra可对标GPT-4◼2024年2月16日,谷歌Gemini模型Pro版迭代出1.5版本:✓该模型在长语境理解方面取得突破,显著增加可处理信息量,持续运行多达100万个tokens,是迄今为止基础模型中最长的上下文窗口✓Gemini 1.5 Pro可一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库✓谷歌透露其在研究中还成功测试了多达1000万个tokens◼2024年2月22日,谷歌推出新型开源模型系列“Gemma”:该开源模型基于Gemini研究和技术开发,与Gemini相比,Gemma展示了更高的效率和轻量化设计,同时免费提供全套模型权重,并明确允许商业使用◼谷歌不断加速迭代大模型,大模型性能提升除了软件层面优化,更需强大算力支撑,算力一方面来自底层的芯片性能,另一方面则来自计算集群效率,为了高效地将多个计算芯片连接起来,谷歌在通用解决方案基础上,创造性地引入OCS光交换机(Palomar)AI大模型竞争激烈软件层面优化算力硬件支撑模型优化依靠:芯片本身性能计算集群性能如何提升算力?谷歌优势不明显,不及英伟达利用OCS提高数据交换速率注:Palomar是谷歌对OCS光交换机的命名 5来源:谷歌官网/谷歌技术文档,中泰证券研究所谷歌大模型 Gemini快速迭代,亟需算力支撑◼谷歌大模型的迭代动作加快:✓2023年初推出聊天机器人Bard:2023年2月6日,谷歌宣布将推出一款聊天机器人Bard,2023年3月21日,谷歌向公众开放Bard 的访问权限✓2023年12月推出首个多模态大模型Gemini 1.0:模型共分为Ultra、Pro、Nano三个版本,同时将聊天机器人Bard背后的模型从PaLM2换成了 Gemini Pro,其中高性能版本Gemini Ultra可对标GPT-4,Gemini Ultra 在大型语言模型 (LLM) 研发中使用的 32 个广泛使用的学术基准中,有30个的性能超过了当前最先进的结果✓2024年2月16日,Gemini 1.0 Pro迭代至1.5:在文本、代码、图像、音频和视频评估达到了与Gemini 1.0 Ultra相当的质量,但减少了计算资源✓2024年2月22日,谷歌推出新型开源模型系列“Gemma”模型规模模型描述Ultra参数最大,性能最强,可以在各种高度复杂的任务中提供最先进的性能,包括推理和多模态任务。 由于采用 Gemini 架构,它可以在 TPU 加速器上高效地大规模运行Pro参数比 Ultra 版本少,在成本和延迟方面进行性能优化,现在已经应用于 Google 聊天机器人 BardNano专门为移动设备训练的模型。针对不同内存的设备,训练了两个版本,参数量分别是 18 亿(Nano 1)和 32.5 亿(Nano 2)表:Gemini 1.0三版本对比能力基准越高越好描述Ge mini 1.0 UltraGPT-4Ge mini 1.5 Pro通用MMLU:大规模多任务语言理解57个学科的代表性问题90.0%86.4%81.9%推理Big-Bench Hard需多步骤推理的各种挑战性任务83.6%83.1%84.0%DROP综合阅读82.480.978.9HellaSwag日常任务的综合推理87.8%95.3%92.5%数学GSM8K基本算术运算94.4%92.0%91.7%MATH挑战性数学难题53.2%52.9%58.5%编程HumanEvalPython编码生成74.4%67.0%71.9%Natural2code无线Python编程生成74.9%73.9%77.7%表:Gemini 1.0 Ultra、1.5 Pro和GPT-4文本能力对比能力基准越高越好描述Gemini 1.0 UltraGPT-4Gemini 1.5图像MMMU多学科挑战性推理59.4%56.8%58.5%VQAv2自然图像理解77.8%77.2%73.2%TextVQA图像文本识别82.3%78.0%73.5%DocVQA文件理解90.9%88.4%86.5%Infographic VQA信息图理解80.3%75.1%72.7%MathVista视觉环境数学推理53.0%49.9%52.1%视频VATEX英文视频字幕62.756.063.0Perception Test MCQA视频问题回答54.7%46.3%-音频CoVoST221种语音翻译40.129.140.1FLEURS62种语音翻译(越低越好)7.6%17.6%6.6%表:Gemini 1.0 Ultra、1.5 Pro和GPT-4图/音/视频能力对比 6来源:谷歌/英伟达官网,Ten Lessons From Three Generations Shaped Google’s TPUv4i,中泰证券研究所谷歌自研TPU单芯片性能不足,提高计算集群效率是破局关键版本TPU v1TPU v2TPU v3TPU v4TPU v5eTPU v5p发布时间201520172018202120232023制程28nm16nm16nm7nm未公布未公布HBM内存(GB)-1632321695HBM内存带宽(GB/S)3470090012008192765峰值算力(BF16,tflops)-46123275197459峰值算力(int8,tops)92---394918单芯片ICI带宽(GB/S)-19842624240016004800集群芯片数-256102440962568960◼谷歌2016年涉足ASIC芯片,截止目前已推出6代版本:✓2015年谷歌首次发布了第一代TPU,正式涉足定制ASIC芯片,2017年发布第二代TPU v2,2018年发布第三代TPU v3,第四代TPU v4于2021年5月正式推出,此次迭代间隔三年,并于2023 年8月推出第五代TPU v5e,以及2023年12月6日最新发布TPU v5p◼单芯片性能不足,提高计算集群效率(POD)是同英伟达竞争的关键:谷歌训练 Gemini Ultra所使用芯片为TPU v4、TPU v5e,性能无法与英伟达H100相比,TPU v5e峰值算力只有英伟达三年前发布的 A100 的六成,最新版本TPU v5p峰值算力不到H100的三成,且英伟达将于2024年推出更高性能的B100产品版本H200SXMH10080 GPCIeA10040 GPCIeTPU v4TPU v5eTPU v5p发布时间202320222020202320232021HBM内存(GB)1418040321695HBM内存带宽(GB/S)48002000155512008202750峰值算力(int8,tops)39583200624-394918表:谷歌历代TPU迭代情况表:谷歌近两代TPU与英伟达近两代产品性能对比注:单芯片ICI带宽,指的是板卡上每个TPU芯片之间信息传输速率 7来源:物联网技术,中泰证券研究所既有网络架构使用电交换机,相比光交换机延迟和功耗较高◼传统三层架构:包括接入层、汇聚层和核心层,对应位置均采用电交换机,一台下层交换机会通过两条链路与两台上层交换机互连,实际承载流量的只有一条,其它上行链路,只用于备份,一定程度上造成了带宽的浪费,因此传统网络架构有网络带宽阻塞,上层带宽小于下层带宽和◼叶脊拓扑结构:相比于传统网络的三层架构,叶脊网络进行了扁平化,变成了两层架构,叶交换机相当于传统三层架构中的接入交换机,脊交换机,相当于核心交换机◼胖树架构和英伟达Infiniband架构:✓传统三层架构存在网络带宽阻塞,在叶脊架构中,视各家具体方案不同,汇聚层或核心层也存在网络带宽阻塞,胖树架构下,自下而上不存在网络带宽阻塞,英伟达infiniband架构采用两层的胖树架构,即叶脊和胖树的结合◼以上网络架构中,各层交换机均采用电交换机,与光交换机相比存在一些不足:首先耗电量较大,同时因为需要对数据包进行编解码导致延迟较高,另外在摩尔定律下,电交换机相关芯片迭代速率较快,电交换机2-3年迭代一版,频繁迭代下资本支出较大图:传统三层网络架构和叶脊架构对比图:传统树形有阻塞三层架构和胖树架构 8来源:谷歌官网,中泰证券研究所TPU v4时期首次引入Palomar OCS提升计算集群性能◼谷歌从TPU v2版本开始构建超级计算机集群:谷歌在2017年发布TPU v2的同时,宣布计划研发可扩展云端超级计算机TPU Pods,通过新的计算机网络将64块Cloud TPU相结合◼TPU v3集群(Pod):2018年与TPU v3芯片一同推出,每个Pod最多拥有1024个芯片◼TPU v4集群首次引入OCS:首次引入Palomar OCS(Optical Circuit Switches,光交换机),一个集群总共有4096个TPU,是TPU