第133号白皮书 能源管理研究中心 作者:Paul LinRobert BungerVictor Avelar 摘要 许多用于训练大型语言模型(LLM)和推理工作负载的配备了加速器(如GPU)的人工智能服务器会产生足够的热量,因此需要采用液冷进行冷却。这些服务器配备了输入输出管道,并且需要一个由歧管(Manifolds)、冷却分配单元(CDUs)和室外散热机组组成的生态系统。针对六种适用于液冷的常见散热架构,我们提供指南以选出最符合您的人工智能服务器或集群的架构。 为本白皮书评分 用于人工智能训练和推理的服务器所使用的加速器和处理器具有很高的热设计功耗(TDP)1。考虑到散热器尺寸、服务器气流和能效等因素,通过风冷方式对这些芯片进行冷却变得越来越不切实际,因此不得不转而采用液冷进行冷却。液冷服务器具有诸多优势,包括能够提升加速器的可靠性和性能、提高能效、减少用水量和降低噪音。2 简介 AI服务器的液冷方式主要分为两类:冷板式液冷和浸没式液冷3。它们在本文我们将探讨的散热生态系统方面有些细微差异。对于在部署液冷服务器方面缺乏经验的数据中心运营商和IT经理,需要了解以下几个问题: •如何让冷水流入、热水流出?•什么是CDU?我是否需要CDU?•选择合适的液冷散热架构需要采取哪些步骤? 液冷生态系统涉及三个要素(即服务器内部的热捕获、CDU类型和将热量排至室外环境的方法)。CDU是一种用于将IT流体回路与制冷系统其余部分隔离的系统,且必须具备五大功能(即温度控制、流量控制、压力控制、流体处理、热交换和隔离)。如表1所示,常见的液冷架构有六种,它们各有优缺点,以及适用的部署场景。 表1常见的液冷架构,包括散热方式和CDU类型。 冷却分配单元(CDU)是液冷架构中的重要组成部分。CDU用于将IT冷却液与制冷系统的其余部分隔离开来。图1为ASHRAE液冷架构的简化视图。图中显示的三个回路分别为技术冷却系统(TCS)、设施水系统(FWS)和冷却水系统(CWS)回路。FWS回路被称为一次回路,而TCS回路则被称为二次回路。以上简短的描述表明,在缺乏合理框架情况下,关于液冷架构的讨论将变得非常复杂。 液冷架构描述 数据来源:ASHRAE,液冷服务器:通用设计、部件和流程,第10页 我们建议一种液冷架构从根本上应该通过以下三个要素进行描述: 1.服务器内部的热捕获(不在本白皮书讨论范围之内)2.CDU类型3.将热量排至室外环境的方法 图1中标出了这三个要素,下文将对其进行简要介绍。 1.服务器内部的热捕获 利用液体从IT组件中捕获热量。这种液体可以是与元器件直接接触的绝缘液(通常是油),也可以是流经固定在发热元器件上冷板的制冷剂或水。虽然这是液冷架构的重要组成部分,但不在本白皮书讨论范围之内。 2.CDU类型 如前所述,CDU是一种将IT流体回路(TCS)与制冷系统其余部分隔离的系统。CDU通常以单机柜形式存在,内部集成了所有部件。它们执行下文介绍的五大功能。在介绍CDU类型之前,了解这些功能非常重要。 •温度控制—CDU精确控制TCS回路中的流体温度。TCS供液温度由IT供应商确定,通常取决于加速器和处理器的最高壳体温度,以及所使用的液冷解决方案。•流量控制—为了带走芯片所产生的热量,CDU必须能够通过机柜歧管(manifolds)、快接头和冷板为所支持的所有服务器和机柜供应足够的流量。浸没式液冷柜体也需要在服务器之间保持绝缘液的流动。•压力控制—CDU管理压力时需要考虑两个方面。首先是系统允许的最大压力,其次是提供所需流量的压差。TCS通常在正压下运行,但也有CDU可以通过吸 吮的方式(通常称为“负压”4)泵送流体,以消除TCS的漏液风险。这种功能通常被称为防漏系统(LPS)。 •流体处理—与设施系统相比,TCS对流体的过滤和化学成分要求更为严格。对于水基TCS,丙二醇水溶液是一种常用的流体,用于防止微生物生长和保持水质。 •热交换和隔离—将TCS中的热量传导出去是CDU的基本功能之一。此外,它还必须将TCS回路中的流体与制冷系统其余部分隔离开来5。 CDU主要由泵、热交换器、过滤系统和用于执行这些功能的控制设备组成。在最终确定CDU(例如,控制器、过滤器类型等)时,会涉及到许多详细的属性。然而,在为设施选择合适的液冷架构时,并不需要确定所有这些属性。仅需通过确定CDU的关键属性,我们就可以简化这一过程。关键属性指的是,如果选择错误,这些属性会迫使您重新更改基本架构,从而浪费花在细节设计上的时间和精力。 我们认为,CDU类型必须基于两个关键属性: •热交换类型(液体-空气、液体-液体等)•CDU的容量和外形尺寸(机柜内安装式、落地式) 接下来我们将详细介绍每种属性。 热交换类型 液冷行业存在六种热交换类型: •液体-空气(L2A)—TCS流体回路热量被泵送到盘管(即散热器),热量直接排入数据中心的空气中。•液体-液体(L2L)—TCS流体回路热量被排至设施水系统。•制冷剂-空气(R2A)—两相冷板式系统通过散热器将热量直接排入空气中。其工作原理类似于风冷冷凝器。•制冷剂-液体(R2L)—两相冷板式系统将热量排至设施水系统。其工作原理类似于水冷冷凝器。•液体-制冷剂(L2R)—TCS流体回路将热量排至设施的氟泵系统。•制冷剂-制冷剂(R2R)—非典型类型。 CDU的容量和外形尺寸 泵的规格、热交换器尺寸和流体类型决定了CDU系统的总容量(kW)。CDU的容量范围广,具体取决于外形尺寸: •机柜内安装式—CDU安装在机柜内,为单个机柜提供一个TCS回路,而且可以与服务器预集成。可以采用L2A或L2L热交换类型,其中CDU的容量分别为20-40 kW和40-80 kW。机柜内安装式制冷剂TCS回路的容量也在上述范围内。 •落地式—CDU为多个机柜提供TCS回路。外形尺寸可能类似于IT机柜,也可能随着容量的增加而增大。这些CDU通常位于液冷IT机柜的附近或与之相邻,对于浸没式系统,可以集成到液槽中。落地式CDU可以采用L2A类型,功率可达约60 kW。L2L型落地式CDU的容量从300 kW到1 MW以上不等。图2给出了一些示例。 图2CDU外形尺寸示例 (a):落地式(L2A)(b):落地式(L2L) 在本白皮书中,我们重点讨论两种主要的热交换类型(L2A和L2L)。表2介绍了四种常见的CDU类型: 表2常见CDU类型 3.将热量排至室外环境的方法 这是关于液冷架构描述的第三个要素,也是最后一个。一旦IT设备释放的热量被TCS回路捕获,问题就转化为,如何将这些热量传递到室外?答案就在图3所述的散热系统中。常见的方法有三种: •现有散热系统 o通过液-气热交换,将TCS回路中的热量排出到IT机房的空气中(也称为“闭环式局部散热”)o通过液-液热交换,将TCS回路中的热量排到设施系统的水中(利用现有FWS或CWS回路) •专用散热系统—为液冷方式设计新的独立散热系统。 施耐德电气——能源管理研究中心第110号白皮书版本2 通过将最后两个架构要素(“CDU类型”和“将热量排至室外环境的方法”)组合,我们可以构建出业界常见的六种液冷架构。表3列出了这些组合。我们将在下一节介绍如何选择合适的液冷架构。 表3常见的液冷架构,包括散热方法和CDU类型。 选择合适的架构 在本节中,我们将从六种常见架构中选择最合适的架构,这个过程可以简化为两个步骤。 •步骤1 -选择散热方法•步骤2 -选择CDU的容量和外形尺寸 请注意,表3中“CDU类型”所列的热交换类型(如L2A)是由散热方法决定的。7而第二个CDU属性,即“CDU的容量和外形尺寸”,与散热决策无关。因此,您可以 通过两个独立的步骤来确定合适的液冷架构。选择散热方法以及CDU的容量和外形尺寸取决于诸多因素,下面列出了其中的四个关键因素: •与现有制冷基础设施兼容性—现有制冷基础设施能否易于支持新的液冷服务器。•部署规模—液冷架构可支持的机柜数量。•部署速度—从设计、建造到首次运行,设施部门部署液冷架构所需的时间。•能效—整体液冷架构的相对效能。请注意,与等效的风冷式架构相比,所有液冷架构都会带来一定的改进。 您可能无法最大化所有这些因素,但可以根据您的工作重点在它们之间做出权衡。例如,与现有风冷式系统兼容性最好的液冷架构很难保证高效。这是因为与水相比,空气的热传递效率较低。以下章节通过详细描述每种架构的优点、缺点和适用的部署场景,来全面了解这些因素并做出明智选择。请注意,所有的散热系统图都以落地式CDU为例,但也可以替换为机柜内安装式CDU。 步骤1—选择散热方法 现有散热系统—将热量排入IT机房的空气中 通过这种架构,可以将TCS回路设计为IT机房内的独立系统。L2A型CDU可以采用机柜内安装式或落地式。在此架构中,现有风冷基础设施的一切保持不变(如图4所示)。这种架构也被称为闭环式局部散热。最后,IT机房内的所有热量都会被现有制冷基础设施排出到室外。 图4 “将热量排出到IT机房的空气中”架构示意图 优点 •与大多数现有制冷基础设施兼容•无需对现有制冷基础设施进行改动•可预制,便于安装、标准化等•如果TCS回路出现问题,受影响的服务器/机柜较少 缺点 •与L2L CDU相比,由于存在更多的热交换和风扇,导致能效低•机柜内安装式和落地式L2A CDU会占用机柜或地板空间•大规模部署时成本较高•需要许多独立的回路来监测和保持水质•较难实现充分的并行可维护性或完全冗余性•小规模的基于水的TCS回路支持的散热时间较短,这意味着如果CDU风扇发生故障,与其他架构相比,制冷中断后回路中的水量无法提供足够冷量来支持负载。 适用的部署场景 •无法提供冷冻水或冷却水,或无法连接现有制冷基础设施时•风冷冷量充足,并且通过气流分析或计算流体动力学(CFD)验证机房能够承载高密度时•范围仅涉及单台服务器或数个机柜的小规模液冷服务器的部署时•部署速度是首要考虑因素时 现有散热系统—将热量排入到设施水系统中 在此架构中,TCS回路充分利用L2L CDU,形成一个独立的回路,并由冷冻水或冷却水回路供水。服务器的热量通过CDU的L2L热交换器从TCS回路输送至设施回路(如图5所示)。随后,热量被排出到室外或重新用于其他用途(例如,集中供热)。液冷服务器60%至90%的热量可以通过液体转移,具体取决于液冷组件的数量。剩余的热量通过风冷方式(例如,CRAC、CRAH8、冷门背板)进行散热。 “将热量排入现有冷冻水回路”架构示意图 优点 •利用现有散热系统,减少投资•与“将热量排入IT机房的空气”液-气架构相比,液冷的散热能力更高、能效更高、噪声更小(通过服务器的风速更低)。•对于改造项目而言,CDU可以重新利用之前由CRAH占用的空间 缺点 •与L2A CDU相比,现场安装工作量更大,包括CDU与设施水系统的连接和TCS与机柜的管道连接等 适用的部署场景 •在配有冷机设备的数据中心部署中大规模液冷服务器时•当有水回路连接或“插接装置”时•当能效的优先级高于部署速度时(例如,L2A型CDU) 专用散热系统—将热量排入到独立水系统中 在此架构中,专门为液冷(通过L2L CDU实现)设计了专用的散热系统。这样就能以最高效的方式优化TCS和散热回路的温度和流量,而不受共用的风冷式散热系统的限制。图6提供了液冷和风冷专用散热系统的比较示例。为了实现液冷,采用带辅助功能压缩机的干冷器来提供较高的供水温度(40℃);而为了实现风冷,采用带自然冷却冷机来提供较低的冷冻水温度(20℃)。 专用散热系统 优点 •由于增加了自然冷却的时长,因此能效更高(除最炎热的天气外,大多数情况下无需机械制冷)•可获得更高的回水温度,提供了重新用于空间供暖、工业加工用水预热等用途的可能性。•部署过程中不会影响现有制冷系统 缺点 •需要在设施层面设计额外管道系统•需要投资构建专用的散热系统