AI智能总结
2025年07月03日 10:29 发言人1 00:02 大家早上好,欢迎大家早上来接入我们国际电信的这个电话会,我是国金电新的首席分析师瑶瑶。那么这个呃关于AIDC这个话题,应该说在今年的比较早的时候,我们就发布了过了一篇针对AIDC整整个的供配电系统的一篇人生的报告。在过去几个月里面,在ABC这条这个赛道上,或者说这个板块里面,这个市场的关注度,或者说大家对于后续的这个算力的这种需求的判断,也一度产生过一些分歧和波动。但是一直到最近伴随英伟达的创新高,大家对于这条主线的后续的需求的确定性基本上达成一致。我们后续也会对于IDC这块持续的处理一系列的关于各个环节的细分的深度报告。 发言人1 00:45 今天的话我们是整个系列的第一篇,就是关于夜冷这个环节。这个叶轮这个环节为什么那么重要?就是他在整个数据中心当中扮演了一个怎样的角色,在叶轮这个技术路线上后续有哪些可能,相关的公司的投资机会又怎样?我们有请我们的IDC这个系列深度,液冷行业深度的这样一篇深度报告的撰写的研究员曾爽啊带着PPT给大家做一个详细的汇报,接下去我就把时间交给孙爽。 发言人2 01:11 谢谢杨老师。各位领导早上好,我是国际电信的研究员曾爽。下面来汇报一下我们整个AID7系列报告的第二篇页的行业深度。其实整篇的话我们主要的目的就是去理清几个问题。首先第一个是数据中心的冷却系统是什么?为什么看到现在冷却系统有从风冷到液冷技术发展的一个趋势?第三个问题是冷却技术以及它的零部件分别有哪些,各自都起到了什么作用? 发言人2 01:35 首先我把这个谜底先摆到明面上,数据中心的冷却系统是什么?它的存在本质上就是为了去保障芯片和服务器的一个稳定运行。那为什么说现在有看到一个像液冷技术发展的趋势呢?一方面计算中心的建设对于高算力芯片的一个需求在增加,那随之伴随着的这个芯片或者是机架的热功耗的提升,就必须使用散热能力更好的一个液冷术。另一方面政策面的话,其实对于数据中心的整个PUE指标是越来越严格的。那么采用更加节能的液冷技术和整个政策导向是相符的。 发言人2 02:07 第三点的话,液冷技术和它的这个零部件分别有哪些?从液冷技术来看的话,目前其实是主要分为三条路线的。门板是静模式和喷淋式,并且根据这个热补货之后,冷却液的一个形态不同,冷板式和静模式又可以细分出单向和两项两条路线。 发言人2 02:25 目前市场上部署的这个液冷方案主要是以单向的冷板式为主,那整个通用的一个液冷系统架构,其实是有三个要素组成的,乃是一次测的冷源,二次测的热补货和这个CDU,也就是冷量分配系统。我们以冷板式为例的话,从冷量传递的这个路线来看,其实就是从冷源到CDU到冷板的一个顺序。反过来也是芯片或者说机柜的热量传递出去的一个路线,那在通用架构的基础上,这个manyfor的QD还有管路等等,也是去建立一个冷板式二次侧回路的核心零部件。整个二次侧回路也就是指这个机房内,并且我们其实也看到了,目前由于芯片和机柜的一个架构不同,包括数据中心整个选址地的气候和自然条件也是 不同的那并且要考虑到一个后期运维成本的问题,液冷两侧回路以及这个零部件方案目前定制化程度是偏高的那液冷的服务器加上液冷的机柜,加上CTU加上管路这种一体化的交付,是目前一个主要的模式。 发言人2 03:22 那落实到投资建议上的话,是针对全球算力需求提升以及数据中心新基建的自身所带有的这个绿色发展使命。那么夜冷环节这边的投资机会,我们是建议关注两个方向。一个是一体化方案的提供商,第二个是高价值量或者是目前国产化率还比较低的这个细分环节的零部件供应商。下面我就上面的这个三问展开做一个详细的补充。 发言人2 03:46 首先一个标准的数据中心是由三个主要部分构成的。IT设备、冷却系统和配电单元。因为IT设备它在运作的时候耗电会产生热量,而且是功耗越大产生的热量就会越多。当一定规模的GPU和CPU同时工作产生热量的时候,整个机房内部的温度环境温度还会有一个进一步的升高。所以其实冷却系统就像人的皮肤一样,主要是起到一个对于数据中心内部温适度的一个调节作用。 发言人2 04:16 那对于整个数据中心而言的话,可靠性和正常的运行时间是首要的一个关注点,那在大规模算力在调用的时候,我电子设备哪怕是很短时的中断,或者是都有可能轻则造成一个我的运算效率降低,或者重则就是硬件损坏或者数据丢失等等的问题。进而去导致数据中心停摆,那IT设备整个运行安全比较大程度是取决于一个稳定的温湿度的。所以冷却系统在这个数据中心稳定性上面是至关重要的,而且当这个冷却系统中断之后,原本产生的这些热量可能就会被机房里面的空气或者是IT设备,建筑这一类的固体物质去吸收。那也是进一步的去增加了一个散热负担,包括这个实践表明的话,整个数据中心服务器温度每升高十度,整个设备的可靠性和寿命就会降低50%。 发言人2 05:05 那我们也找了过去几年数据中心因为冷却系统故障而导致的一些事故。可以看到基本上是每年都有发生的,并且会造成这种区域性乃至是全国性的影响。根据china force 2024年整个液冷在数据中心的渗透率是大概是10%,并且今年是有望提升到20%以上的。虽然说这样来看风冷还是会占据一个主导地位,但是我们也可以看老叶是在一种比较强势的增速成长。一方面主要是来自于高算力伴生的这个高功耗,另一方面就是来自这个政策端的引导。 发言人2 05:38 算力需求来看的话,整个AI浪潮下数据中心产业的投资是在从通算中心迅速转向智算中心。这里简单解释一下两者的一个区别。通用算力就是基于CPU提供的一个基础的计算能力。智能算力的话是依靠于GPU、FPGA asic这种芯片去加速特定类型的运算。那智算中心就是既包括通用算力又包括智能算力的基础设施。其实它的核心价值就在于对于这个高并行算力的一种调用。所以机柜功率机柜功耗会远远的超过传统的一个云的云数据中心。 发言人2 06:11 为了去满足不断攀升的算力需求,各个服务器供应商也都在持续的去迭代一些更高算力的芯片或者说服务器。比如说英伟达blackwell,从这个架构下面,从这个B100到GB200,整个算力提升三倍的同时,其实功耗提升是接近四倍的,再往后看的这个B300至B300,算力和功耗也会有更进一步的提升。同时我 们这里也对比了华为920B和之前英伟达供给国内这个阉割版的H20,可以看到910B无论是在算力还是功耗上,其实都比这个H20更具备优势的。这个主要是由于920系列它主要是针对AIC里做的这个asic芯片,那么整体的功耗会比GPU的话更低一点。但是我们也可以看到,如果是和现在英伟达主流出货的这个H100去比,还是会存在算力上的这种代差。但是华为基于他们的910C提出了一个纵向扩展的方案,CM384就相当于采用一个人海的战术去堆芯片,用到了384颗910C芯片,同时会采用400G的光模块,那么总体的这个总系统功耗,也就是单机柜来看,功率是接近560千瓦,也就是GB200NBL72的四倍左右。一般认为,风冷对于单芯片的一个极限是350瓦,对于单机柜的极限是20千瓦。那也可以看到,英伟达GB300的这些ODM、OEM厂商也都是使用了一个液冷的架构。 发言人2 07:36 华为的910C虽然我们从单芯片的功耗上来看,是没有到必须要上液冷的一个门槛,但是从机柜级来看,甚至是要提出更高的一个要求的。那么再从政策端来看,国内对于整体数据中心的一个PUE指标是趋严的。去年7月国家四部委发布的数据中心绿色低碳发展专项计划行动里面是要求到今年底2025年底,新建以及改扩建的大型和超大型数据中心的PUE要降到1.25以内,这个枢纽节点的数据中心PUE是不得高于1.2。全国数据中心平均的一个PUE到今年要求降到1.5以下。并且今年6月统计的一个数据是最新一批的国家绿色数据中心的一个平均PUE是已经降到了1.26。那从1.5到今年6月这个绿色数据中心的1.26,其实可以看到PUE指标持续下降这样一个比较明显的趋势。那除了说要降PUE之外,各省市也给出了一些对于老旧的低效的数据中心的改造或者关停政策。那么部分地区不达到PUE指标的,可能会去征收一些差别电价。也是给到了一些措施去加速这一部分存量的低效数据中心去退出。 发言人2 08:48 这边解释一下什么是PUE,中文的全称就是电能利用效率。在数据系统里面,整个逻辑就是我IT设备耗电产生热量,这个时候就需要制冷系统来耗电散热,同时供配电也会有一定的损耗。数据中心消耗的所有的能量和IT设备消耗能量的这个比值就是PUE。也就是说PUE越接近于一,整个数据中心的能耗水平就会越好。过去整个冷却系统在数据中心的能耗占比一直都是仅次于IT设备的。所以如果采用这个热传导效率更好的液冷技术,是能够在更低的能源消耗下去实现一个更好的散热效果,并且达到一个比较低的PUE。所以液冷技术整体的一个渗透和政策导向是比较相符的。 发言人2 09:31 接下来的话我们详细的去拆解一下整个液冷系统。液冷技术的话它就是以冷却液为媒介去带走设备的热量,根据冷却液是否和这个电子器件直接接触,分为直接式液冷和间接式液冷。间接式液冷就是以冷板式为一个代表。冷却液它流经GPU或者CPU这些电子器件顶部的冷板,然后IT设备和冷板区域交换热量,整个电子元器件是不会和冷却液直接接触的,直接是液冷的话就是以静模式为代表,服务器完全或者部分的进入绝缘的冷却液中。 发言人2 10:07 另外根据这个冷却液吸热之后,是否会有一个形态上的变化,又可以区分为单项和2项。单项主要是指冷却液始终以液体的形式在这个系统里面循环,两项的话就是指冷却液在吸热时会发生一个气液相变,从而获得更大的一个进出温差。在散热方面的话是两项的表现会优于单项,就像我们最初说的,这个通用的冷却系统架构是有三个主要的要素构成的。分别是一次测位于室外的这个冷源,二次测位于室内的一个热补货形式和这个冷量分配单元CDU。那么整体一次侧和二次测它的液冷是其实是独立的两个循环,它们是只交换热量,不交换冷却液的。我们以冷板式为例,它整个原理其实就是冷却液通过这个 冷板,然后来捕获芯片的热量,之后输入到CDU里面,和一次次的冷却液做一个热量交换,最后输送到这个冷却塔这些等等的冷源设施里面,然后最后输入到外部环境里面,最终完成整个系统的散热。 发言人2 11:12 首先来说CDU就是冷量分配单元,我会把它比作整个液冷系统的心脏。因为人的心脏有几个作用,一个就是把二氧化碳和人体代那个代谢物排排排出去,第二个就是泵血,其实CDU也可以这样来理解,他就是把二次测的一个热量排给一次测,并且把交换完的热量,把交换完热量的这个冷却液再送回到回路里面,开始一个新的循环。所以说整个CDU部件里面有两个比较重要的部分,那一个就是热交换器,一个就是水分。那水分的水分就是用来控制整个在液体在CDU里面进行热交换的速度,或者说控制一个整体交换热量的这个量。然后热交换器是决定了CDU的一个冷却能力,其中水分会涉及到几个核心的参数,比如说流苏、扬尘参数,功率效率比那其中这个功率效率比是会直接影响PUE的。目前市场上看到的几种技术,比如说采用这个词浮沉轴的水分会由于摩擦产生的能量损失更小一点,比传统的这个机械沉轴方案更加节能。 发言人2 12:13 热交换器来看的话,其实和一二次测冷却介质相关,它可以分为液液交换或者分页交换。这里二次测都是以冷却液的形式,但是考虑到部分存量数据中心有改造需求,那么分液交换器其实是可以去满足一次测分冷,二次测液冷这种形式的。从CDU在数据中心的一个设计位置来看,还可以分为集中式和分布式。集中式CDU就是在机柜外,但是还是在机房内,同时去服务多台的服务器机柜,提高系统的一个可靠性。集中式的这个CDU1般部署是按不低于N加一的一个规模进行配置的。分布式的CDU是位于机柜内,只是去服务所在这个单机柜里面的一些服务器,一般来说是不冗余配置的,适用于规模比较小的数据中心。 发言人2 13:06 下面来说说冷板,那个冷板