您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:AI算力中心液冷产业交流20240613 - 发现报告

AI算力中心液冷产业交流20240613

2024-06-13 未知机构 落枫
报告封面

A:国内对于能效的评估标准主要以 PUE(Power Usage Effectivenes s)作为 核心标准。国家在“东数西算”工程中规定,北方的算力节点 PUE 需达到 1.2,南方为 1.25,其他地区新建的数据中心 PUE 不得高于 1.3。此外,一些地方还 会有差异化的要求。例如,北京的新建数据中心 PUE 要求低于 1.15,并且要求 在五年内实现百分之百的碳中和,初期可再生能源供电量不得低于 20%。在水 资源紧缺的地区,如内蒙古乌兰察布等地,对 WUE(水使用效率)也有明确规 定,甚至要求使用无水方案。 Q:服务器内部的风扇等耗能设备的能耗是如何计入预算的? A:服务器内部的风扇等耗能设备的能耗通常会计入整体能耗预算中,而不是单 独列出。这些设备的能耗会被包含在数据中心的总能耗评估中,以便更全面地衡 量数据中心的能效。 Q:在 PUE(电源使用效率)计算中,服务器风扇的功耗如何计算? A:服务器风扇的功耗算在 IT 侧,因为它属于服务器内部,不能从服务器中解耦 出来。因此,在 PUE 计算时,服务器风扇的功耗是算在 IT 功耗中的。 Q:在什么情况下需要从风冷升级到液冷? A:是否需要从风冷升级到液冷,主要取决于 PDP(最大散热设计值)和空间相 对性。如果芯片的 PDP 很高,但服务器空间较大,依然可以使用风冷散热。液 冷通常在小空间内放置更多器件时才需要,比如国家级超算中心。在高密度计算 环境下,如单柜热密度超过 40 千瓦,推荐使用冷板式液冷。冷板式液冷的制冷 上限大约在 120 到 130 千瓦。 Q:不同制冷方式的经济性如何比较? A:在 IT 制冷领域,基础设施造价成本的比例较低,通常占整个数据中心造价的 5%左右。因此,制冷方式对整体经济性的影响较小。液冷比风冷的造价高 25% 到 30%,主要增加在液冷末端设备上。浸没式液冷的成本更高,单千瓦造价比 冷板式液冷高一倍以上,主要由于浸泡液和补液成本高。总体来看,冷板式液冷 是目前主流选择,每千瓦造价在 3000 到 3500 元左右 Q:风冷和液冷的单千瓦成本分别是多少? A:风冷的单千瓦成本大约为 2000 多元。液冷在中国市场的单千瓦造价大约在 3000 到3500 元,包含一部分风冷和冷板的成本。Q:静默式液冷的成本是多少?A:静默式液冷的成本相较于以前单项经过的报价有所降低,现在大概在六七千 块钱左右。这主要是因为我们现在使用的是合成油类的筋膜液,它比以前的氟化 物要便宜一些。Q:如果采用降变式液冷,成本会有多大的增加?A:如果采用降变式液冷,成本会在普通相变的基础上增加 50%到 100%。这是 因为静默式相变是一个成本较高的方案,所以在商用化的数据中心领域中,基本 上都是国家超算会使用。Q:在什么情况下会使用静默式液冷,以及对未来这个产业的发展有何看法?A:选择使用静默式液冷 主要是看单位的热密度。如果单位热密度在 120 千瓦这 个冷量段上,单向式冷板是最好的。因为单向式冷板的产业链成熟度比较高,大 规模生产质量可控,故障率在一定程度之下。但是,单向式静默的最大短板是它 的散热不均匀。如果发热比较集中,那么单向式静默就不是好的方案。因此,这个产业的发展趋势可能会考虑一些混合的方式,比如相变式冷板加上浸没式的综 合式液冷方案。 Q:直接芯片级的冷板相对于普通的冷板来说,它的单千瓦成本是如何变化的?A:直接芯片级的冷板,也就是我们中国说的冷板,它的成本要分两部分。第一 部分是基础设施侧,大概会比风冷增加 20%到 25%。第二部分的成本增加在服 务器里边,因为需要额外增加的 co flat,这个部分的成本大概是每千瓦在 5000 到 6000 块钱左右。 Q:为什么超算需要使用高功率密度的冷却方式,而不能像普通计算那样通过增 大房间或者增加机器来解决? A:超算的结构决定了它需要使用高功率密度的冷却方式。因为超算是一堆 CPU 的堆叠,CPU的热度是相对均匀的,所以泡在新工业里面这种方案是比较好的 一个方案。这样可以在更小的面积之内贴更多芯片,推出来的算力会更高。而对 于 GPU 这种发热不均匀的设备,采用冷板这种方式效果最好。 Q:超算中心和商业化计算项目在部署上有什么不同? A:超算中心项目通常是国家工程项目,建筑结构和其他设施都是为超级计算机 中心服务的,进展较快。而商业化计算项目需要大规模快速部署,受到的制约条 件较多,部署难度较大。商业化计算项目的服务器类似于风冷服务器,只需在基 础设施准备好后连接管线即可部署。 Q:英伟达的 DB200 和 NVL 系列产品在液冷方面有哪些特点? 盘有两张 GPU 板卡,共 72 个 GPU。机柜采用 OCP 标准,冷板式液冷用于托 盘内部,风冷用于网络连接和其他部分。 Q:OCP 标准机柜的优势是什么? A:OCP(Open Compute Project)是一个全球开放社群,由 Meta(Facebook)提出,包含一百多家公司。OCP 标准机柜的优势在于其开放性和兼容性,任何符合 OCP 标准的设备都可以混用。这种标准化有助于快速部署业务,例如在短 时间内增加大量计算资源。 Q:冷板和静默液冷系统的成本构成是怎样的? A:冷板液冷系统的主要成本包括 CDU(每千瓦 1000 到 1500 元)、many gold 和二十四管路(1500 到 2000 元),以及外部冷却设备(约 500 元)。静 默液 冷系统的成本主要在冷却液上,冷却液按吨计价,一吨约 40 万元,一个标准 20U 的坦克需要约 800 升冷却液,成本约 30 多万元。 Q:冷板和静默液冷系统的冷却液消耗情况如何? A:冷板液冷系统是封闭系统,冷却液只循环不蒸发,基本不需要补充,年消耗 量约为 2%到 5%。静默液冷系统则会挥发,年消耗量约为 10%到 20%。静默液 冷系统的补液频率较高,有时每两个月就需补液。 Q:您能详细拆解一下静默单项的价值量吗? A:静默单项的结构与冷板类似,主要包括机柜、CPU 和干冷器。具体价值量如 下:碳壳部分约3000 瓦,价值在 500 到 800 元之间;CPU 部分价值在 1000 到 15 00 元之间;干冷器部分约 500 元。干冷器有时会做成一主一备的配置。整 体价值量约为290 万元。 Q:液冷产业链中各厂商的角色和地位? A:液冷产业链可以分为三大类厂商:1.IT 厂商的延展部分,如曙光数创、浪潮 等。这些公司有自己的配套厂家来做冷板式液冷,主要为自己的芯片或服务器配 套,市场化能力和综合能力较弱,但业务增长潜力大。2.专业的制冷供应商,如 英维克、依米康等。这些公司原本做机房制冷,具备较强的市场理解和产品成熟 度,特别是英维克在研发能力和产品成熟度方面表现突出。3.上游零部件供应商,如高栏、中航光电等。这些公司主要做冷板和其他散热组件,部分企业如汇川也 进入了液冷市场,提供驱动器和水泵等零部件。 Q:英维克在液冷产业中的优势是什么? A:英维克的优势主要在于解决方案的成熟度和技术储备。液冷系统是一套复杂 的系统,英维克在冷板、房间级和冷源方面都有丰富的经验和技术储备。此外,英维克在储能冷却方面也有较大的验证规模,具备丰富的工程经验和较强的定制 化能力,这使得其在处理水垢路、管网、接头渗漏等问题时表现更为出色。Q:全球液冷市场的主要竞争者和竞争情况如何? A:全球液冷市场的主要竞争者包括文具和徐红等公司。与国内市场相比,全球 市场在价值量和技术方面可能有所不同。具体的竞争情况和对比需要进一步详细 介绍。 Q:台湾供应链与贵公司的关系是怎样的? A:台湾供应链与我们不是竞争关系,而是错位的。台湾供应链主要负责整体交 互界面,例如英伟达设计芯片后交给台积电生产,再由台湾的服务器制造商如广 达、英业达、伟创等进行组装。我们与英伟达是伙伴关系,面对同一个客户群体,例如微软等四大云厂商。我们负责提供数据中心层面的解决方案,包括服务器设 计、机柜配置、制冷架构等。台湾供应链则更多依赖英伟达订单,类似于苹果的供应链模式。我们在高热制冷领域是英伟达的独家合作伙伴,提供全套制冷解决 方案。 Q:NVL42 液冷制冷的价值量如何? A:NVL42 的整机柜内部冷板、many fold 和机柜的价值量大约为 4 万美金。外 部的 CPU 等组件的制冷价值量大约为 30 万到 50 万美金。一个 NVL72 单元包含 18 个机柜,使用两台 CDU013501 主一备,整体价格大约在 60 万到 100 万美金。整体市场规模可以根据 GPU 数量进行推算。 Q:单向冷板的价值量如何拆分? A:单向冷板的价值量按每千瓦计算,大约为 5000 到 6000 元人民币。快接头 的价值量大约为 300 到 500 元人民币一个,具体数量取决于服务器的设计,一 般为一进一出。 Q:冷板的价值量为什么这么高?它的特殊壁垒体现在哪些方面? A:冷板的高价值主要体现在其加工工艺的难度上。冷板通常用于服务器内部,其单品价值量较高。冷板的制造需要高精密度的加工工艺,包括铜制主板、铝合 金托底托以及内部复杂的水管路设计。此外,为了使服务器更薄,冷板采用异构 架构,并且需要大规模生产,这些都增加了制造成本。 Q:为什么国内和国际市场的冷板价格差异如此大? A:国内和国际市场的冷板价格差异主要是由于供应链成本和竞争度的不同。国 内冷板的价格约为3000 至 4000 美元,而国际市场的价格则高达 30 万至 50 万美元。这种价格差异反映了不同市场的芯片供应情况和供应链成本的差异。Q:国内有哪些企业能够进行冷板加工? A:国内能够进行冷板加工的企业主要是一些供应链企业,例如高兰等。具体有 哪些企业能够进行冷板加工,目前尚不明确。 Q:Mini food 和二次循环管路的加工难度如何? A:Mini food 和二次循环管路的加工难度相对较低,但材料要求较高,通常使 用不锈钢。Mini food 有两种类型:软管型和盲插型。软管型使用软胶管,连接 简单;盲插型则使用硬连接,对公差度要求较高,精度要求也更高。快接头通常 用于软管型连接。 Q:单千瓦的价值量是否包含冷板? A:单千瓦的价值量不包含冷板。冷板部分属于服务器产业,不在基础设施的计 算范围内。基础设施的价值量不包含冷板部分,冷板的价值量约为 5000 美元。Q:如何看待国内 AI 算力中心液冷产业的未来发展,特别是曙光和华为的角色?A:从现在的事实来看,曙光在液冷领域是主要玩家,因为他们在国内超算领域 占据了 70%的份额,是最有经验的本土液冷供应商。但他们的短板是在某些综 合技术上,比如空调,他们不太懂。此外,曙光的服务器和他们的产品绑定比较 严格,这可能会在未来,比如中美脱钩,或者他们不能生产英伟达的产品时,带 来一些风险。华为则是自己设计自己生产,他们的 OEM 就是森林海雾,这几家 森林可能小的这种东西,就是冷板的东西,可能就森林给他做了。大的那个冷源 的东西,就是海陆给他做的,就是贴牌的,OEM 的,就是设计全是华为设计,然后由他们来提供。 Q:目前在供应角度看,AI 算力中心液冷产业的格局是怎样的? A:现在的格局大致分为两个阵营。一方面是以运营商为基础的国家队,比如华 为,他们主要供应国家队的项目,以及一些地方政府的计算中心。另一方面是大 型互联网公司,比如腾讯、字节、阿里等,他们主要采购英伟达的卡,然后找国 内的服务器厂家来帮他们 O 服务器,比如浪潮、联想等。所以大致上,一半是 商业化组织使用英伟达的,一半是国家队使用国产专利的。 Q:在液冷这块,各大公司会如何选择合作伙伴? A:华为是自己设计自己生产,他们的 OEM 就是森林海雾,这几家森林可能小 的这种东西,就是冷板的东西,可能就森林给他做了。大的那个冷源的东西,就 是海陆给他做的,就是贴牌的,OEM 的,就是设计全是华为设计,然后由他们 来提供。运营商的机柜这一侧,