AI智能总结
续推动续推动scaling law算力升级算力升级20240919_原文原文 2024年09月19日20:57发言人00:01 但是其实比较容易理解,就是因为我这个算力的消耗其实是取决于方方面面的。无论是我的这个token 数,然后还是我API的这个价格,然后可能会包括我这个out output出来这个结果的长度等等一系列都会对我的这个算力消耗的影响,但是我们尽可能的去定量化去进行一个分析。首先就是先看我们 training阶段的10%以内。 AI算力系列算力系列16-强化学习成为前沿方向,强化学习成为前沿方向,o1继继 续推动续推动scaling law算力升级算力升级20240919_原文原文 2024年09月19日20:57发言人00:01 但是其实比较容易理解,就是因为我这个算力的消耗其实是取决于方方面面的。无论是我的这个token 数,然后还是我API的这个价格,然后可能会包括我这个out output出来这个结果的长度等等一系列都会对我的这个算力消耗的影响,但是我们尽可能的去定量化去进行一个分析。首先就是先看我们 training阶段的10%以内。所以其实我们可以看到大厂基本就是能保证每周大概滚动训练一次。我们假设在OE这种21的get up训练中,能够拉动我这个post training的算力有一个成倍的增长。我们预期可能中期这部分的post training,在pre training的占比可能提升到30%到50%的一个区间。 发言人01:06第二个就是我们的这个推理阶段。推理阶段我们的这个OA的算力,我们简单的去跟这个4O 相比,我们觉得算力的提升在推理侧可能是有一个数十倍的一个增长。我们的参考主要第一个就是API的这个价格,本身这个OE其实是会比这个4O贵的四倍。然后第二个就是我本身的这个output的程度可能会翻倍。 发言人01:33然后第三个就是刚才我们一直在讲这个COT。COT 其实它就是我的这个思维链,我在思维链形成的过程中,可能会有非常多的ration的一些推理的过程产生。这部分就是我的一些的token s然后这部分可能还会有三倍左右的提升。所以整体下来我们肤浅的这个牌,我的这个OE单次消耗的算力就有可能是所有的20倍到30倍区间。但是我们可以看到,尽管我们这种单次的算力的消耗会有大幅的提升,但是对于全局的退役需求,其实还取决于我这个OE大模型具体的一个适用范围。可能如果说未来它的一些应用领域,确实我的特定需求量比较大,那对于我整体的特定需求的算力带动还会有一个更显著的一个增长。 training阶段和推理阶所以以上就是我们对于整个OE的一个简单的介绍,以及在这个训练的这个post段,对于顺利提升的一个简单的测算。 发言人02:41 第三部分就是我们对于整个前面上一些环节的一些标的的推荐和情况的一些分析。这其中肯定弹性最大,以市场关注度最高的还是这个宽松性环节。下面就把时间交给我们组,专门负责光通信在研究员刘浩天老师。 发言人03:02浩天好,谢谢佳琪。大家好,我是通讯组的浩天。然后我们这边主要分享一下O 一整个模型对于算力需求的一个带动。我们觉得这个带动是非常显著的。然后里面核心的原因就是因为推理在整个算力需求里面的占比在越来越多。然后像去年整个需求拉动基本上全部都是训练的需求。今年的需求应该是推理和训练并重。然后到了明年我们认为主要的这个增长的来驱动就都是来自于推理的区动。 发言人03:37 但是过往可能一直有一个疑问,就是这种真实的推理的需求到底来自于哪?可能这个是之前会有的一个疑问,但是OE解决了这个疑问。那么第一点就是推理的需推理的算力的需求比原来要想的要多得多。 因为像之前的推理需求里面,核心的参数其实就是访问量,到底有多少用户去做多少次的这种访问,这是唯一的一个参数。但是OE的这个模型里面引入了另外一个参数,就是这个思考的深度。这里面四位电的长度,也就相当于现在问一次问题所消耗的算力,相当于之前问若干个问题。这样的话整个推理的需求的天花板的上线,其实就是被进一步打开了。因为多多引入了一个参数维度,所以需要对于整个推理能带动的算力需求进行一个重估,这是第一个方面。 发言人04:34 然后第二个方面是推理的应用的场景其实也大幅度拓宽了。因为在往常这个模型可能会经常出现一些比较低级的 错误,然后其实大大的限制了它所能应用的场景。那也就就是只可能是在这种偏to c端才能够应用,然后真正到这个B端的应用就会遇到局限。但是由于A这个OE的模型让让让这个大模型,尤其是在这种很严谨的科学的领域,然后他的回答的准确度能够大幅的提升,所以大大拓宽了它的应用领域。能让能让这个大模型应用于更多to b的环节。然后这样的话整个的市场空间也就打开了,也就不仅局限于这种个人用户的付费的这样的一个场景。这个是第二重的意义。 发言人05:31 第三重的意义其实是对于未来的整个的模型的训练提供了更多的资源和数据。因为大家都知道这就影响模型训练的质量里面很重要的程度,是很重要的一个影响因素,就是来自于他所运用的这个训练的数据本身的一个质量。在训练过程当中有一个问题,就是这种高质量的数据其实都被用尽了,已经都都已经经过训练了。然后这种新的高质量的数据来源是有限的。但是有OE的这个模型推出来,然后就能让用AI去生成高质量的数据。然后再用这种AI生成的高质量的数据,再反过来去训练更多新的模型。这样的话就形成了一个正向的循环,就为后面的这种新的模型,不论是不论是这个精度更好的大语言模型,还是说其他的这种多模态模型,就是为他们提供了更多的这种高质量的训练集。所以也为之后的整个模型的发展加速了。 发言人06:50 也就是说在在大模型发展的本身,也对于模这个模型的推理的算力带来了需求,就形成了一个循环的一个效应。所以就是这么三点都共同的会拉动整个的推理的这边的算力的需求,和之前所预估的要大很多,是这个是一方面的影响。然后另一方一方面的影响就是OE的模型的推出,让我们感觉整个大模型它的思维的过程就越来越像越越越来越近似于人类的思维了。像之前的大语言模型就类似于脱口而出的一个过程。他就好像把一个人放在一个一个一个,比如说就像一个问询或者一个答辩一样。然后你问他问题,然后他及时的给你做出来问答。就像比如像美国总统辩论,但是他他所答出来的内容可能很多是不严谨的,可能经不起真实性的检验,这个也是人类通常会犯的错误。 发言人08:01但是OE 就提供了人类的另外一种思考模式。就好像是我们平时在写论文做研究的的过程,一个问题可以想很久,想几天,想一个月都有可能。那么经过了这么长时间的一个思考,也让他的思维的深度和思维的量这些都有大幅的提升。整个的思维的逻辑和人会更加的像。 发言人08:25所以O一的命名里面也不包括GPT,它整个的思维的模式和GPT就不一样了。而且它命名为O 一就代表着后面还会有O2、O3、O4,去把这种深度思考的模型去进一步的一个丰富。所以O一的意义可能更类似于比如说GPT3或者GPT2这种比较初级的一个模型。那么后面这个模型它可以去完善和丰富的空间都是 很大的。这些也都会共同我们去推动算力的需求。所以这样的一个模型的推出,让我们感觉到这个模型的训练和整个算力的需求,它的持续性和整个产业发展的深度容量是比之前要想的大很多的。 发言人09:16 因为平时经常会被问到,就是这个模型会不会推出个两三年,它就是到达了一个可能周期的一个高点,然后后面就止步不前了。但是有这样的一个模型推出来,就让我们觉得整个大模型的发展,他可以持续的去发展,还有很久很久的发展的时间。在整个过程当中都会搭配着对于算力的需求。这个是我们对所理解的这种模型推出的一个整体的一个意义。 发言人09:51 落到标的上,就是我们持续的去推荐,就这个光模块里面的主要是核心的标的中去创新中心和新盛,因为他们核心的收益到北美的需这个产业链上,而且北美的产业链又直接的和这种模型的推理和训练的需求量是直接挂钩的,直接相关的。然后现在对于明年的需求已经非常明确了,然后倒推出来的各家公司的业绩增长,比起今年都有一个非常大幅度的一个增长,对应的估值也都非常便宜。我们相信就是有OE这样的模型推出来,包括明年可能会推出的新的模型,就会让后年的需求相比于明年还会有一个比较大幅的一个增长。所以会让这些标的,整个增长的能见度比之前要想的要好很多。所以也要还是持续的推荐这个专业链里面的这个。 发言人10:49 公众号这个板块里面,尤其是推荐还这三家能够供应到直接供应到海外巨头的这么核心的标的。这是我这边主要要分享的内容。再看你看还有哪些这个产业相关环节可以去补充的。 发言人11:08好的,其实就像刚浩天所说的,就是整个足够的算力去做这个post train ,还有后续的推理,去做这种长的COT。其实是能不能去提升我推理性能会能不能发出我的这个大模型的一个非常重要的入场券。所以如果selling了,在我们的这个posttraining阶段没有失效的话。那后续无论是这个万卡集群,10万卡集群,随着我们的这个集群规模的扩大,我们在连接侧networking侧的pax占比也会有比较显著的一个提升。当然在这个连接侧最重要的肯定是我们的这个光模块。除此之外,就包含我们networking里面比较重要的一个环节,像这个交换机产业链,我们觉得也是非常值得关注。 发言人12:02那这里面,如果是从直接的利好角度来看的话,我们可以看到,在这个put train 阶段,其实不一定是必须要用英伟达的这个GPU卡,甚至是蒙蒙卡罗的这个推测策划。其实我是一种背景计算,用CPU也可以,或者用其他的asic其实也可以做我的这部分的思维链,信推,所以这就意味着我的以太对于IB份额的蚕食会进一步的增强。这里面无论是come还是sta其实都是有比较长足的一个利好。 发言人12:42 如果是从国内的碳管交换机产业链来看的话,这其中无论是紫光中心,锐捷这种整机厂,然后还是上游的像菲克斯这系列的代工厂,其实也是会有比较长足的一个拉动。那除此之外,就是我们近期也一直在有推荐的盛科通信。那盛科也是刚刚整体的估值,也是达到了历史比较低位的水平。他其实除了园区测的一些产品矩阵,在客户侧的比较好的一个渗透之外。他的在数据中心测了两款12.8T和25.6T相关的一些产品,目前也是在华夏瑞杰特的宋阳,相对来说比较顺利。都是后续有望应用在无论是运营商还是行 业客户,甚至后续是有望拓展进这个互联网大厂的一些模型的迅推的品的产品里面。这也是建议各位投资人持续关注。 发言人13:54 最后我们可以看到无论是这个计算环节,还是我们的这个网络环节,它其实都是需要放到我们的这个数据中心的这个算力基础设施里面。这其中我们可以看到国外的这个大模型有比较快速的一个发展。它的这个推理需求也是逐步提量。所以其实可以看到像这个equality,这个data reality之类的,其实在整体的这个业绩段都有明确的一个供需的拐点。 发言人14:24 与此同时,其实部分的市中心也有比较强的一个出海的布局。无论是在新加坡,然后还是在马来的马来西亚,其实相关的一些德芙等等地区,都是有一些数据计算基础设施的一些出海。这里面像这个万国数据,光环新网相关的一些布局,也可以持续关注,以及配套的一些温控设备包括像因为课等等,整体都有比较强的一个基本面的一个持续改善。除此之外,其实像国内的一些IPC厂商,我们预期也是后续随着整个大模型的不断的去进行底层逻辑的一个改善。Token数变多在训练侧,以及在后续的一些推理侧的需求也会逐步起量。它会完全复制一个海外的一个供需格局逐步改善,从这个供过于求到供不应求的一个逐步的蜕变。然后是对于一些头部厂商相关的一些订单的这种结构性变化,也是非常值得关注的,这里面我们也是持续建议投资人去关注润泽科技奥飞数据等一些IDC厂商。 发言人15:48以上就是我们今天对于整个OpenAI OE 大模型的一个介绍和相关一些量化的测算,以及产量整体环节的一些推荐