您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:AI深度洞察系列三scaleup与scaleout组网变化趋势如何看20240910 - 发现报告

AI深度洞察系列三scaleup与scaleout组网变化趋势如何看20240910

2024-09-10未知机构张***
AI智能总结
查看更多
AI深度洞察系列三scaleup与scaleout组网变化趋势如何看20240910

out组网变化趋势如何看组网变化趋势如何看20240910_原文原文 2024年09月10日22:07发言人00:02 你即将开始,请稍后。Thanks for your participation.大家好,欢迎参加新政通信经典重温AI 深度洞察系列报告第三期,scale up与scare out组网变化趋势如何看电话会议,下面开始播报免责声明。声明,播报完毕后,主持人可直接开始发言。 AI深度洞察系列三:深度洞察系列三:scale up与与scale out组网变化趋势如何看组网变化趋势如何看20240910_原文原文 2024年09月10日22:07发言人00:02 你即将开始,请稍后。Thanks for your participation.大家好,欢迎参加新政通信经典重温AI 深度洞察系列报告第三期,scale up与scare out组网变化趋势如何看电话会议,下面开始播报免责声明。声明,播报完毕后,主持人可直接开始发言。 发言人00:26 本次电话会议仅服务于兴业证券客户,会议音频及文字记录的内容版权为兴业证券所有,内容必须经兴业证券审核后方可留存。未经允许和授权转载、转发,此次会议内容均属侵权,兴业证券将保留追究其法律责任的权利。电话会议所有参会人员不得泄露内幕信息以及未公开重要信息。涉及外部嘉宾发言的,兴业证券不保证其发言内容的准确性与完整性。兴业证券不承担外部嘉宾发言内容所引起的任何损失及责任,不承担因转载、转发引起的任何损失及责任。 发言人01:11 市场有风险投资需谨慎,提醒投资者注意投资风险,谨慎参考会议内容。各位投资人早上好,我是孙我是兴业通信组的朱坤旭。今天早上我们重点来去讲一下我们之前刚发布的第三篇AI深度的报告。这个报告其实跟现在大家所看到的趋势也有一定的关系。就是我所看到它的组组网集群从可能最早期的几千张卡,然后到今年落地最快最大的一个规模,就是其实马斯克SAI的那个10万卡的券。但从一个比较小的集群走到一个更大规模单点钱的过程中,大家可能对硬件环节会有不同的要求跟变化。 发言人01:59基本上我们所看到这个升级的变化主要分为两块。我们定义为或者说现在业内通用定义为一个skill out 。所谓的第一个give up的通俗的简单的理解就是它可能指的是对于一个自由协议或者是单卡芯片性能提升的这样子定义的过程中,它带来的产品本身的一个性能升级。那这里面其实包含了比如说,你的单跟单颗芯片的性能的翻倍。或者说基于自有的这种互联的协议,比如说NV link这种带来的这种单节点的互联规模的提升。我们定义的其实都是skillup过程。Skill out指的就是说采用一些通用的方案,使得你的提取的承载能力会变得越来越强。这个过程中最大的变化就指的是针对转换灯光块这块的环节带来变化,所以大体分为主要这两类。 发言人02:52首先来提一下,需要更多公司调研纪要关注公众号MT调研可添加微信号S130970 。主要是我们确实认为你能看到它是一个带宽持续提升过程,并且这个提升速度是远高于整体提升所看到的这种物理环境的一个变化。原因是在于说,当下大家可能你的集群组网的形态,可能跟你本身的这种产品使用的性能或者是你的场景相挂钩。那基本上现在AI的整个场景就两类,一个是训练,一个推理。然后甚至包括了可能大家可能后面云的这种踪影场景,价值追求的这种背景。所以我们认为就是说他可能在设计上可能更多的会以这个训练的这种思想为依托,去搭建他的意见的这个载体。训练的要求肯定是远高于推推推理的这个集群的建设的密度。所以如果按照训练去搭,其实你也可能非能够非常好去适应推理的变化。 发言人03:56 以这个训练的为例,因为大家现在看到说基本上AH的集群在训练的过程中,基本上采用了训练的方式。它基本上都定义为分布式定型的训练架构。这种架构的想法其实就是在于说提高效率。因为AI模型你需要训练的这个参数量,包括你的数数据量其实会越来越大。如果你还是之前的最早期的这种1点1刻的这种方式去训练,可能你需要耗费的时间跟维度其实是非常久。大家为了提高效率,就希望能够同步去进行训练。所以在这种思想驱动下,有了分布式训练的这样一个弟弟。 发言人04:38 目前来讲这个分布式训练大概分为三种类型去并行,分别是数据并行、交叉并行跟流水线并行。直观的理解就是说数据并行指的是那每一批数据,我为了去实现同步训练的这个磁场,我会把数据进行分批。但每一批的数据内部的每一个GPU,它自己保留了模型的副本。这样就可以达到说我们这一批次的数据它可以同步的在不同的层内 进行训练。那每一层我其实会同样进行两个事情,就在数据并行的这样一个所谓Z轴定下我的X轴跟YY轴,我分别会进行流水线并行跟照样并行。其中流出现病情指的是我把模型通过这种神经元的思想给他进行去分布。其实你的前后向并不会有直接的逻辑关系,我们也可以达到一个等效同步训练的效果。这个过程中它其实对你的需要有时间定义。 发言人05:35 张量并行其实主要针对的就是大家可能常见听的比较多矩阵运算这一块。它对应的这个数据量其实也是最大的一个部分。所以可以看到说,大概的整个如果以右下角的这个百度智能云的公开的资料显示,而对于可能他这个地区表表可能也就是1000张卡最多。那它所迭代一次就发现,比如说你照样并行,你的数据的产生的数据量或者通信量大概是在100G左右。数据并行可能只有十几例,然后你的流水线并行可能只有100兆。 发言人06:11 可以看到其实销量,并且它是发生在带宽最高需要的位置。这个位置大家也往往发现它会发生在服务器内部。认不认为就是说为了去实现你的带宽层面的一个高效的一个分布。可以看到说其实更多的人是想把最难就是最耗费最多的张量并行的这个部分,他留在了这个服务器的内部。这也体现了为什么大家一定要把节点去做大q up的一个思想。 发言人06:39 节点的规模其实我们以两家的为例,一家是英伟达,另外一家是谷歌。英伟达代表当下主要从主流选择这种通用的范式的架构训练。这个部分你可以看到说,其实他的思想一直体现在把带宽做大的内部带宽做大的这样影响。从最早期的形式,大家可能都是八卡制的这种BGF的版本。其中你的变化主要体现 候,这个双向带宽可能只有600GB到到B到H级的时候可能升级到900GB。可能未来到B级的时候,这个带宽可能会到100 1800G所以可以看到说这个内部带宽其实就有了一个至少翻倍维度以上的一个提升。 发言人07:24第二点就是说其实去年就有创新性的提出低是200的这个思想。这种思想是最早的DDX 的版本,你是大概是八卡共享一个NV link带宽的这样一个思想。到接近200的时候,其实单卡直接独享一个NV link带宽,所以你的带宽在卡的层面上来讲是升级了八倍。同时从内部的包括明年B系列这种机柜式的设计,它使得采用NV link的节点的基本单元从最早期的八个再升级到72个,这里面可能又有九倍的提升。所以你至少能看到说,如果我都是基于NV一个不变的带宽情况下,单纯的这个变化我可能都已经看得 到,可能8乘9可能是72倍的一个提升。所以在这种维度下,这也解释了为什么大家非常关注内部互联的这个场景。因为带宽数得到了一个极大飞跃之后,这个带量才会使得你觉得是一个相对有权重的表现。 发言人08:21那谷歌的话它。它主要采用的是TPU的这种维度。TPU 的这个理念,它其实更多的是采用自定义的这种asic芯片来做设计。其中芯片之间的互联,其实谷歌也是自定义的一种通信方式。所以他的这个不管是拓扑结构和它互联的形式,比如说采用了OCF这种光交换机,跟英伟达这种版本其实不是完全一样的。 发言人08:49谷歌也发现说,当我把单个节点做大的时候,其实节点之间的这种BCM 带宽可能会可以做的比较低。那对整个网络咨询来讲,也是一个相对可以体现高效的一个思想。所以你可以看到在V4版本的时候,这个单节点它可能互联的一个class的内部的集群的卡数大概也就是4096张卡那到TQV5的时候,它其实已经会升级到8960张卡。LC可以看到说,其实你能看到大家都在追求这个QRP提升,对应内部带宽提升这样一件事情。对应到英伟达来讲的话,其实最大的变化就是在RIC内部大家可能会使用同互联的形式。当 情。 发言人09:37 在当下的物理形态上来讲,你可能看到它的互联的模式基本上都使用的是这个桶。那我们理解上来讲,从它的最大的一个物理上的限制,就是因为铜本身的带宽是由series来决定的那service每升高一代的时候,其实它的互联距离大概只有可能会砍半。那你右下角的这个OF协会的图来讲,就是当你的service可能做到224G的时候,这个铜如果不做任何的物理补偿,他的互联大的距离其实可能只能做到1米的一个位置。那可能你这个机柜它没办法再做很小,而你的最高的那一层的托盘里的卡跟最低的一层托盘的杆,可能你即使把它妥协,把NV switch会的这种功能放在中间,那未来可能就1米的距离你也做不到。 发言人10:31所以你可能会想到两个方法,第一个是物理补偿。比如大家可能从最早的无缘的ST 股这个互联距离的缺陷,我们认为就是说带宽后续来看讲还是在做持续的迭代。可能未来GPO之间互联这种形式可能也会升级到光的这个过程中。所以基本上我们理解就是q up的这个趋势不变,但变的可能是里面的这个互联的形态。所以可能对同来讲,你需要关注点是每一个阶段你都需要考虑下一代产品,而是否继续会沿用同连接的这个思想。不然的话你可能买的更多是当代带来的一个业绩的一个短期产品。 发言人11:09第二个版本就是说那个要做的话,其实我们是想讲,首先第一个你能看到就out 部分后面的趋势会全部转向制作以太网,不管是训练还是推。因为最早期大家可能刚提到以太网跟IP趋势的时候更多那个时候维度我们之前写过的理解在于说,它可能是训练跟云的场景,你使用以太网是啊更好的一个选择。但是现在看到趋势,就是在训练咨询上,大家也是越来越多转向用以太网的方式去做训练。这从逻辑上来讲,以太网一定是未来的一个趋势。不管是什么样的AI场景,对它一定会带来相关的公司一些投资的机会。 发言人11:49 基本上以这个最大的是的集群,马克思克的这个XAI的这个询问卡集群来讲,它采用的是英伟达H100的方案。所以它是利用的是400G交换机搭配800G光块这种形式。在这个方案里面来讲,它这个集群落地其实就是为了训练去做的。所以我们认为说,其实你当下最大的一个集群都在去使用训练。也就意味着你看网站去搭训练的这个集群,它其实在目前来讲没有什么太多障碍。 发言人12:15 这个集群它主要是用英伟达的方案再去做那志杰。他之前的一个万卡集群的报告其实也提到说,是使用了英伟达的卡。然后采用了普通的这种交换的方案,再去做普通的训练。目前来讲,像上班卡这边,所有的这个VM集群的升级,它基本上可以看到其实就是使用英伟达的卡。但是互联集群上使用的是RS卡的交换器,维斯塔它其实是基于博通的芯片在做。 发言人12:46另外一个变化就是我们刚刚提到说,当你把导致内对应的带宽做高的时候,就out 的的带宽是存在可以收敛的这样一个特征。所以对于曼塔这个地区来讲,它在第三层交换机的和第二层之间带宽就是导致外带宽的,导致内它去做7比1 7比1的1个收敛,所以可能导致内的带宽有就是你的密度,就是外面的这个七倍的这样一个维度,对于带宽道是不变的那在交换机层面的话,两个变化,一个是大家听的比较多,一个是交换机芯片升级,一个整体加快。第二个我们认为就是未来状的形态也会发生比较大的变化。这款机芯片升级的这个维度上,目前来讲,能够在AI之行制作的全球可能就两家公司,一个就是英伟达,另外一个就是博通。他们都会在明年去推,明年大家主打的上午10.2T的这个芯片。 发言人13:36 我们的第二个的变化就是在于说,当你的集群越做越大的时候,其实你可能需要架构的一个升级。如果不升级的话,其实你会出现说这十万卡我可能就要连四层交换机或者甚至更高的维度,这三层肯定是不够用了。现在的情况