您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东吴证券]:AI算力跟踪深度:辨析Scale Out与Scale Up——AEC在光铜互联夹缝中挤出市场的What、Why、How - 发现报告

AI算力跟踪深度:辨析Scale Out与Scale Up——AEC在光铜互联夹缝中挤出市场的What、Why、How

信息技术2025-01-06张良卫、李博韦东吴证券米***
AI智能总结
查看更多
AI算力跟踪深度:辨析Scale Out与Scale Up——AEC在光铜互联夹缝中挤出市场的What、Why、How

行业研究报告 AI算力跟踪深度: 辨析ScaleOut与ScaleUp—— AEC在光铜互联夹缝中挤出市场的What、Why、How 证券分析师:张良卫 执业证书编号:S0600516070001联系邮箱:zhanglw@dwzq.com.cn联系电话:021-60199793 2025年1月6日 研究助理:李博韦 执业证书编号:S0600123070070 联系邮箱:libw@dwzq.com.cn 请务必阅读正文之后的免责声明部分 我们认为AEC是AI计算时代ScaleUp需求被放大后的新兴技术方向,与ScaleOut光互联并不构成需求的“零和游戏”,后续有望在柜 间、柜内、ToR层互联中继续渗透: 1、绪论:如何辨析ScaleOut与ScaleUp网络?ScaleOut网络实现集群内(Cluster,如万卡、十万卡集群)所有GPU卡互联,亮点在于网络内连接GPU数量大,与传统数据中心网络类似,ScaleUp网络实现超节点内(SuperPod,如NVL72)所有GPU卡互联,亮点在网络内单卡通信带宽高,为AI算力场景下并行计算、内存墙等瓶颈催生出的新兴需求; 2、What:DAC、AEC、AOC是什么?1)DAC、AEC都是铜连接,DAC无源(没有信号处理芯片)、AEC有源(有信号处理芯片), AOC是有源光连接;2)信号传输的核心部件与原理不同导致三类连接方式的功耗、距离、成本成倍递增; 3、Why:为什么AEC在DAC、AOC的夹缝中挤出空间?1)光进铜退已经发生于ScaleOut网络:由于传输速率、距离均不断提升,光几乎已占据ScaleOut所有互联场景;2)能用铜的场景就只会用铜不会用光:当前铜在10m以内高速连接仍可使用,因此光模块、CPO尚无法替代此场景;3)ScaleUp互联GPU数量少距离近,10m以内铜连接或可全覆盖,并不构成对光互联空间的侵蚀;4)距离、尺寸等差距导致铜缆内部有源(AEC)进无源(DAC)退; 4、How:AEC在算力网络侧如何部署、前景如何?1)目前AEC主要用在ScaleUp的柜间连接,如目前亚马逊Trn2-Ultra64使用AEC柜间互联,ASIC芯片与AEC配比为1:1;2)AEC与ASIC两者的兴起有相关性而非因果性,其底层逻辑是计算与通信的再解耦:云厂使用ASIC或英伟达HGX等,而非英伟达DGX方案时,完全来自英伟达的计算+通信方案也随之解耦,云厂便可以自主选择使用AEC;3)AEC还可以向柜内与ToR层渗透:假如英伟达GB200NVL72/8柜内换用AEC,一枚B200对应4.5支等效1.6TAEC,假如亚马逊Trn2-Ultra64柜内换用AEC,一枚Trainium2对应约3支800GAEC,决定配比的关键因素仍为单卡带宽及交换机层数;假如AEC参与ToR层连接,和算力卡配比为1:1;4)与DAC产业链中连接器品牌方是最核心环节不同,Retimer芯片供应商+品牌方变为AEC产业链中主导方; 投资建议:1)AEC有望在ScaleUp兴起的趋势下获得越来越多的市场空间:关注兆龙互连,博创科技,推荐中际旭创,关注澜起科技;2)ScaleUp有望带来新的交换机需求:推荐盛科通信,关注锐捷网络,紫光股份,中兴通讯;3)“光退铜进”并未发生,光模块市场需求基本未被动摇:推荐中际旭创,天孚通信,关注新易盛。 风险提示:算力互联需求不及预期;客户开拓与份额不及预期;产品研发落地不及预期;行业竞争加剧。 绪论:如何辨析ScaleOut及ScaleUp网络? What:DAC、AEC、AOC是什么? Why:为什么AEC在互联场景中挤出应用空间?How:AEC在算力网络侧如何部署、前景如何? 投资建议 风险提示 1.绪论:如何辨析ScaleOut与ScaleUp网络? 若干超节点(SuperPod,如NVL72)组成集群(Cluster,如万卡、十万卡集群); •ScaleOut网络实现集群内所有GPU卡互联,亮点在于网络内连接GPU 数量大,与传统数据中心网络类似; •ScaleUp网络实现超节点内所有GPU卡互联,亮点在于网络内单卡通信带宽高,为AI算力场景下新兴的网络架构。 (由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流) ScaleOut与ScaleUp网络对比 超节点内 ScaleUp 集群内 ScaleOut 最大GPU数(张) 单卡带宽(Gb/s) ScaleOut 746496 800 ScaleUp 72 7200 ScaleOut网络与ScaleUp网络(NVL72+CX-8网卡+三层Quantum-X800IB网络) •AI训推需要分布式并行计算,基于对计算效率不断提升的追求,并行计算方式有数据并行(DataParallelism)、流水线并行(PipelineParallelism)及张量并行(TensorParallelism)。 •数据并行:将输入数据分配给各个负载,各负载上基于不同数据进行同一模型的训练/推理; •流水线并行:将模型分为若干层分配给各个负载,各负载分别进行不同层的 计算; •张量并行:将模型参数运算的矩阵拆分至各个负载,各负载分别进行不同的矩阵运算。 (由于篇幅有限本文未就技术原理做详细阐述, 具体细节欢迎进一步交流) 数据并行(左),张量并行(中),流水线并行(右)计算原理图 并行计算催生ScaleUp网络需求: •几类并行计算方法各有优劣,大模型训练采用集合了多种并行方式的混合并行计算,如3D并行计算; •与数据并行、流水线并行相比,张量并行矩阵运算后需要同步,因此需要更高频、更低延时的数据传输,传输数据量也高出一到两个数量级; •通常数据并行、流水线并行基于容纳卡数更高的ScaleOut网络,张量并行基于单卡带宽更高的ScaleUp网络。 (由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流) 3D并行计算 张量并行需要传输的数据量多出一到两个数量级 (GPT-3B模型基于32个GPU训练数据) 资料来源:《3Dparallelism:Scalingtotrillion-parametermodels》,《UnderstandingCommunicationCharacteristicsofDistributedTraining》,东吴证券研究所6 训推计算的“内存墙”催生出通过ScaleUp网络将显存池化的需求: •单一大模型的参数量与单卡显存的差距(即模型内存墙)、单卡算力与单卡显存间的差距(即算力内存墙)均逐代放大; •除模型参数外,推理计算生成的KVCache(关键中间值的缓存,用于简化计算)占用显存大小也可达模型的50%甚至以上; •因此单卡运算时需从多张卡的显存读取所需参数、数据,为了尽可能减 少数据传输时延,目前产业化应用最优解是使用ScaleUp网络将显存池化, 如NVL72。 (由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流) 模型内存墙逐代放大算力内存墙逐代放大 以一个通俗的例子辨析ScaleOut与ScaleUp: •上海市有加工厂A,B,C,······,Y,Z,AA,(对应GPU),各工 厂均配有自己的仓库a,b,c,······,y,z,aa,(对应配套显存); •所有工厂组成一个市内集群(Cluster),每三个工厂组成一个超节点 (SuperPod),之前上海市集群内所有工厂都通过市内高架、快速路连接 (即ScaleUp网络); •现在超节点内工厂做完每一个加工步骤,都需要把中间品汇总再分发至各个工厂进行下一步加工(即张量并行计算),同时开工工厂用到的原料、中间料大小超出自身配套仓库容量(即内存墙); (由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流) 以一个通俗的例子辨析ScaleOut与ScaleUp: •因此除了市内高架、快速路外(延安高架都时不时堵车…),各节点内3个工厂需要更加高速的直连方案(ScaleUp),如地下直连管道 •上海市集群内所有工厂通过市内高架互联(ScaleOut),每组超节点内部工厂通过挖通的地下直连管道互联(ScaleUp) •线条粗细代表信道传输速率 (由于篇幅有限本文未就技术原理做详细阐述, 具体细节欢迎进一步交流) 市内工厂和配套仓库通过两类网络连接 资料来源:东吴证券研究所 9 2.What:DAC、AEC、AOC是什么? 10 连接器 Retimer芯片 铜缆 AEC 光模块 光缆 AOC 资料来源:Asterfuison,东吴证券研究所 11 2.DAC、AEC、AOC在有无信号处理芯片、信息传输介质 上存在差别 DAC、AEC都是铜连接,DAC无源(没有信号处理芯片)、AEC有源(有信号处理芯片),AOC是有源光连接:(目前ACC实用性不高本文暂不介绍) •DAC(DirectAttachCable)采用铜线将两端的连接器端口组装起来,不包含任何主动组件; •AEC(ActiveElectricalCable)含铜缆、连接器、Retimer芯片、PCB等,Retimer芯片可消除噪声并非线性放大信号,从而延长铜缆连接距离; •AOC(ActiveOpticalCable)由两端光模块和光纤集成,通过光缆传输高 速信号。 DAC、AEC、AOC示意图 DAC 资料来源:东吴证券研究所 12 信号传输的核心部件与原理不同导致三类连接方式的功耗、距离、成本成倍递增: AEC 铜缆 •DAC没有信号处理芯片,没有时延噪声消除、信号恢复等功能,直接通过铜缆传输信息; •AEC中Retimer芯片将时延噪声消除、信号恢复,再通过铜缆传输信息; AOC 光缆 •AOC中DSP、Driver、Tia芯片将时延噪声消除、信号恢复,再利用VCSEL等光芯片将电信号调制为光信号后通过光缆传输信息。 DAC 铜缆 DAC、AEC、AOC的核心部件及原理图 信号传输的核心部件与原理不同导致三类连接方式的功耗、距离、成本成倍递增: •功耗:DAC、AEC、AOC中有源芯片复杂度逐渐增加,因此功耗也逐级提升,以400G速率为例,三者功耗分别为0.1、5、10W; •传输距离:DAC、AEC、AOC对信号处理能力逐渐提升,因此有效距离也逐渐提升,以400G速率为例,三者传输距离分别为2、7、100米; •成本:DAC、AEC、AOC中有源芯片复杂度逐渐增加,因此成本也逐级 提升,以400G速率为例,AEC、AOC的成本分别为DAC的3倍、9倍。 DAC、AEC、AOC的功耗、传输距离、成本对比 10 5 0.1 12 10 8 6 4 2 0 DACAECAOC 120 100 80 60 40 20 0 100 2 7 DACAECAOC 10 9× 3× 1× 8 6 4 2 0 DACAECAOC 资料来源:Precision,东吴证券研究所 13 400G峰值功率(W) 400G传输距离(m) 成本倍数 3.Why:为什么AEC在DAC、AOC的夹缝中挤出空间? 由于传输速率、距离均不断提升,光几乎已占据ScaleOut所有互联场景: •目前AIDC内ScaleOut网络的主流端口速率为400G、800G,在英伟达CX-8 网卡及Quantum-X800交换机投入使用后更会高达1.6T; •同时在用于ScaleOut的3层CLOS网络中,自上到下各层距离分别在千米级、百米级,服务器到ToR交换机的距离在10米以内; •前面已经提到,DAC、AEC等电互联在400G及以上速率的有效距离均在 10米以内,因此在ScaleOut场景光是主角。 用于ScaleOut的典型3层CLOS网络(各层命名方式可能存在差异) 当前主流速率下铜在10m以内仍可使用,光模块、CPO尚无法替代此场景: •和铜连接相比,光连接最显著的优势是有效距离长,特别是在单通道速率不断提升的趋势下,以