Deepseek带动算力需求井喷, 算力调度平台成最优解-20250522_原文 2025年05月23日 13:01 发言人1 00:00机会可以再见面,我是投报研究院综合所的行业分析师常晓宇。 发言人1 00:04欢迎收看本期投报带你读研报栏目。 发言人1 00:07今天我们一起来探讨一下,中国算利大陆平台雇佣文化发展路径的行业发展动向。 发言人1 00:14投保研究院持续关注市场上各行业的发展动向,搭建专业报告数据库,坚持多年关注产业热点焦点实践,持续产出最新行业研究报告,同时提供专业的咨询服务。 发言人1 00:26如果有行业调研、市场地位调研的需求,可以联系我们。 发言人1 00:35那么我们就进入今天的读研报的正式环节。 发言人2 00:35那么我们就进入今天的读研报的正式环节。 发言人1 00:39首先的话可以看一下创利调度平台整个发展的一个需求背景。 发言人2 00:39首先的话可以看一下创利调度平台整个发展的一个需求背景。 发言人1 00:46大家也知道最近AI也是越来越火,那AI的底层对于算力的需求是它其中的基础。 发言人1 00:53算力需求的话,过去几年我们也能看到它的发展是非常迅速的。 发言人1 00:57从这个就是2019年的32全国范围内330 200亿亿次浮点运算每秒的一个规模。 发言人1 01:05到了2023年的450 100亿亿次四年规模运算的一个水平。 发言人1 01:10 那么来那这样来看也是过去五年整个增长的倍数是达到了接近15倍左右。 发言人1 01:18也是看到了各城市都在迅速高速的去建立职能算力。 然后从不同城市的分布来看,北京目前北京、广东、上海,包括贵州、河北这些地区都是算里规模比较庞大的。 发言人1 01:33 其中贵州达到了80,EFM,然后OKS北京、广东、上海率达到了45、38,还有30,也是伴随着人工智能大模型以及相关应用的一个爆发式的一个增长需求。智能算力的需求也是在正间正正在经历前所未的一个激增。 发言人2 01:48智能算力的需求也是在正间正正在经历前所未的一个激增。 发言人1 01:53 在当前的话智能计算智算算力已经成为中国算力结构中增速最快的类型,那这里的话也是补充一个知识点,就是智能计算就算理分为三个类型,一个是啊超算,一个是智算,还有一个是普算或者是基础计算。 基础计算的话主要是用于比较常用的基础的一些存储计算功能等等的。 发言人1 02:17智能计算的话更多是偏倚GPU架构为核心,然后为人工智能去提供服务的一些计算服务。 发言人1 02:23 然后超算的话则是更偏向科研,更偏向一些高性能计算,然后有大规模的一个重复性计算领域的一些需求。 发言人1 02:32 三者来看的话,智能计算目前还是中国整个商业结构中增速最快的类型,尤其是在像是AI这里的大规模语言模型,就是我们说的大模型图像识别、自动驾驶等前沿领域对高性能计算资源的需求尤为迫解。 发言人1 02:50去统计大模型。 发言人1 02:51作为智能创业机的四大需求方,其他它它的一个需求占比也是达到了接近60%。 发言人1 02:57 这反映了一个AI技术的一个快速发展,也揭示了未来算利市场整体的一个巨大潜力。也可以看预见到未来二三年到2018年来看,算利规模整个的需求也是会提升越来越高。 发言人2 03:06也可以看预见到未来二三年到2018年来看,算利规模整个的需求也是会提升越来越高。 发言人1 03:142023年的话,目前经过测算,中国地区的智能算力需求是6334MW。 发言人1 03:22 那么在未来的持续提升中,2028年可能会达到超过2万W每年的供给量。同时预测来看,未来每年将会有超过60%的一个黏合增法律,也是为这个行业带来了非常大的一个刺激和带动需求增长的一个趋势。 发言人2 03:28 同时预测来看,未来每年将会有超过60%的一个黏合增法律,也是为这个行业带来了非常大的一个刺激和带动需求增长的一个趋势。 发言人1 03:45那么在算力需求井喷的一个背景之下,就出现了这么一个形式,或者叫他一个软件形式。 发言人1 03:56然后它的名字叫做算力调度平台,关联叫做平台是做什么呢? 发言人1 04:01首先它是一个软件技术,然后它通过一种技术架构去整合不同异构且碎片化的一些资源。 发言人1 04:11那它那那它这个具体是怎么做到的呢? 发言人1 04:13也就不是也就是说因为目前中国有非常多的一些计算中心,然后有大有中有小,然后各同不同规模散落在不同的一些地点。 发言人1 04:24 目前遇到的一个难点和痛点就是非常多的一些算例的使用率其实并不高,比如说一些早期政府自建的一些蒜粒中心,常年的一个利用率使用率是不到5%50的一个情况,在这个大背景下,是一些容余的算例,以及建好是没有被利用的算例。 发言人1 04:45它就需要去以更好的方式去服务到市场,然后去增加整体中国算利的一个利用效有率。 发言人1 04:52 基于这个点的话,就需要去做一个软件方式,然后能够去调度不同数据中心荣誉的算译,把它汇聚成一个完整的池子,然后再供不同的人去调度。 发言人1 05:03这样的话就可以起到非常好的一个一个资源利用,提升效率的一个效果。 发言人1 05:11那么分利调度平台它对于整个产业的一些核心价值有什么呢? 发言人1 05:17在在讲核心价值之前,我们首先可以来看一下整个31的平台的一个架构。 发言人1 05:23你们首先在服务器端,对,这就是最底层。 发言人1 05:26通常是在不同的智算中心的一些基础创立服务器上,然后创意到平台作为一个软件形式的载体,运行在物理的服务器之上。 发言人1 05:36然后它接受到这些客户端的调用,然后并返回这些资源分配和调度的一些结果。 发言人1 05:43然后在中间的话,中间层就是有一个控制中枢,也是算力调度平台核心的一个软件技术核心层。 发言人1 05:53这里的话主要是去管理AI的一些硬件资源池,然后基于大数据分析的一些技属去调度虚拟的GPU资源。然后同时做到一个统一全局的资源管理与监控。 发言人2 06:01然后同时做到一个统一全局的资源管理与监控,就可以看到A数据中心、B数据中心它的资源用率怎么样,然后是否有满负荷,是否有融余。 发言人1 06:05就可以看到A数据中心B数据中心它的资源用率怎么样,然后是否有满负荷,是否有融余。然后通过大数据技术可以看到是否某一些数据中心在某一些时段的容余情况比较严重。 发言人2 06:13然后通过大数据技术可以看到是否某一些数据中心在某一些时段的容余情况比较严重。 发言人1 06:20 那么在这些数据在某一些时段中,我们就可以预先把任务分配到那些更有可能出现溶于情况的一些计算中心中。 发言人1 06:29 这些一系列工作、一系列调度、一系列管理、一系列监控都是由GPU控制中枢这里,也就是在算路算力调度平台的核心这里来去做的。然后最顶层的话就是这个GPU的客户端,也是最贴近客户一层。 发言人2 06:40然后最顶层的话就是这个GPU的客户端,也是最贴近客户一层。 发言人1 06:45客户在这一块的话会给使用蒜粒销售平台的一些客户去提供一些编程接口,提供一些工具链。 发言人1 06:52 然后除了去给客户一些算力以外,还有去给他们一些能够去视频配一些像应用开发工具等等,然后让用户客户可以更好的去把这些资源给利用起来,同时也会去做一些比较好的一些可视化效果。 发言人1 07:09 然后将底层这一些抽象的一和零非常多的一些数据,可视化成,用户可以理解,然后可以方便操控操作一个平台,那这就是整个一个算力操作平台的一个完整的架构。 发言人2 07:23那算力操作平台的价值展现在哪里? 发言人2 07:25首先第一点的话,它是能够解决资源视频变化和利用率低的一些痛点。 发言人1 07:29因为它本身具备汇率碎片化异构算力然后这些能力,并且它有一些智能调度的技术,可以去提升整体资源利用率和可行性。 发言人1 07:40首先它解决的就是碎片化和利用低的一个问题。 发言人1 07:43第二点的话,它是能够降低用户的成本,并且提供灵活性的。 发言人1 07:48因为首先用户在使用GPU的一个成本,尤其在做大规模线的时候是比较高的。 发言人1 07:55 那很多企业他可能需要去自建数据中心,或者是去提前像云服务区去租非常多非常大的一个套件,对于一些中小企业来说成本是非常高的,创联到的平台就提供了一种非常灵活的一些方式,就用户可以按卡,按一张卡,两张卡,剩1个小时的2个小时这样形式去租。 发言人1 08:15 对于一些,规模不是非常大的团队,一些中小团队,他们可能只有一些科研任务或者是一些产品研发。 发言人1 08:23两周都可以结束,一个月可以结束。 发言人1 08:25同时可能只需要用到4到8台机器,4到8张卡这样。 发言人1 08:30 在这种情况下的话,上级调度的体验台就是他们非常好的一个选择,能够为他们提供弹性按需、高性价比的算力使用模式,并且还能降低用户的一个成本和过去门槛,这是第二点。第三点的话,它也是简化这个算力的获取和和一些管理的复杂度。 发言人2 08:44第三点的话,它也是简化这个算力的获取和和一些管理的复杂度。 发言人1 08:50因为还是前面讲的,如果一家企业他需要获取策略,去做一些相应的技术任务的话。 发言人1 08:56通常要不然是自己要去建处理中心,自己去买一个机房,自己去把服务器放到机房里。 发言人1 09:03那要不然的话,他可能就是需要提前去跟云厂去打招呼,然后去获取一些算力。 发言人1 09:09 稳定的算力能够保持他们在一定时间内不会出现不稳定性,等等一些问题,导致他们的任务中断。那这种情况首先前者在使用硬件做硬件数据中心的话,除了初期投资大以外,像是现在一些巴卡的H100,H200的价格都能跑到一两百万。 发言人2 09:17 那这种情况首先前者在使用硬件做硬件数据中心的话,除了初期投资大以外,像是现在一些巴卡的H100,H200的价格都能跑到一两百万。 发言人1 09:31那这些对于很多中小的一些团队来说,是一个非常大的一个初级资本投入。 发言人1 09:37首先这一块就是除了硬件资本投入高以外的同时,他投入回来以后还需要去进行相应的培训跟操作。 发言人1 09:46然后去进行运维,进行升级,然后进行管控监控,然后还要去做一些在位等等这些技术。 发言人1 09:54 这样的话同样一是增加了学习成本,而是可能也是需要去增加一些技术运维团队去殿下加成本。那同时的话在自建数自建自建数据中心的情况下,还可能遇到现在硬件迭代特别快。 发言人2 10:00那同时的话在自建数自建自建数据中心的情况下,还可能遇到现在硬件迭代特别快。 发言人1 10:08 比如说英韦达的英维达的显卡,也就是问英韦达的GPU加速卡是基本上能做到每年更行,每年更新一次,然后每年的性能提升在百分之10至20左右的一个情况,对于自建数据中心来说,硬件的折旧通常是按4到5年来算。 发言人1 10:26 在可能你的折旧则直到第二年、第三年都还没有折到65% 10的情况下,你的硬件水平其实已经非常落后于市场了。 发言人1 10:35 对于这种情况来说,也是对于整个资本开销的要求跟幅度是非常大,所以对于中小企业是比较难。那第二种的话,这是第一种,就是获取自己本身数据中的硬件。 发言人2 10:44那第二种的话,这是第一种,就是获取自己本身数据中的硬件。 那第二种的话,如果是去和云厂谈的话,那首先云厂的门槛也通常比较高,通常是100台机器起租,人家才可能去跟你谈。 发言人1 10:57不然的话不可能是几台十几台机器,然后就可可以说固定的给你保留好,然后就用这些。 发言人1 11:04那么对于AI训练也好,AI推理也好