行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

2023人工智能带来的颠覆：数据中心设计的挑战及相关指南白皮书

信息技术2023-10-14施耐德电气我***

AI智能总结

本白皮书探讨了人工智能（AI）在数据中心工作负载中所占比例日益增加，对数据中心物理基础设施设计和管理的影响。报告预测，到2028年，人工智能电力需求将以26%-36%的年复合增长率进行增长，最终达到13.5 GW至20 GW。人工智能的四个属性和趋势是导致物理基础设施面临挑战的根本原因：人工智能工作负载、GPU的热设计功耗、网络延迟和人工智能集群规模。报告提供了针对每个物理基础设施类别（包括供配电、制冷、机柜和软件管理）的应对挑战的指南。

第110号白皮书版本1.1 能源管理研究中心作者：Victor AvelarPatrick DonovanPaul LinWendy TorellMaria A. Torres Arango 摘要从大型训练集群到小型边缘推理服务器，人工智能（AI）在数据中心工作负载中所占的比例日益增加。这意味着需要向更高机柜功率密度进行转变。人工智能初创企业、一般企业、托管服务提供商和大型互联网企业现在必须考虑这些密度对数据中心物理基础设施设计和管理的影响。本白皮书探讨了人工智能工作负载的相关属性和趋势，并介绍了由此带来的数据中心挑战，并针对每个物理基础设施类别（包括供配电、制冷、机柜和软件管理）提供了应对此类挑战的指南。为本白皮书评分  近年来，我们目睹了人工智能的飞速发展，它改变了我们的生活、工作以及与技术的互动方式。生成式人工智能（如ChatGPT）的出现更是推动了这一发展。预测算法正在对医疗1、金融、制造2、交通3和娱乐等行业产生影响。与人工智能相关的数据需求也正在推动新的芯片和服务器技术的发展，致使非常高的机柜功率密度的出现。与此同时，市场对人工智能的需求十分巨大。以上所述因素的结合为设计和运营数据中心以支持这一需求带来了新的挑战。简介人工智能增长预测我们估计人工智能目前的电力需求为4.3 GW，并预测到2028年它将以26%-36%的年复合增长率（CAGR）进行增长，最终达到13.5 GW至20 GW。这一增长速度是数据中心总电力需求年复合增长率（11%）的两到三倍，详见表1。其中一项重要的洞察是，随着更多经过训练的新模型开始进入生产阶段，推理4负载将随时间推移而增加。实际能源需求将在很大程度上取决于技术因素，包括连续多代的服务器、更高效的指令集、芯片性能的提升以及人工智能的持续研究。表1 本白皮书介绍了人工智能的重要属性和趋势，这些属性和趋势对数据中心不同物理基础设施类别带来挑战，包括供配电、制冷、机柜和软件管理等。我们还提供了如何应对这些挑战的指南5。最后，我们对数据中心的未来设计方向提出了一些前瞻性看法。本白皮书并不是关于将人工智能应用在物理基础设施系统。虽然下一代物理基础设施系统最终可能利用更多的人工智能技术，但本文专注于如何利用当前可获得的系统来支持人工智能负载。人工智能以下的四个属性和趋势是导致物理基础设施面临挑战的根本原因：人工智能属性与趋势 •人工智能工作负载•GPU的热设计功耗（TDP）•网络延迟•人工智能集群规模人工智能工作负载 AI工作负载一般分为两类：训练和推理。训练工作负载用于训练人工智能模型，如大语言模型（LLM）。我们在本文中提到的训练工作负载类型属于大规模分布式训练（大量机器并行运行6），因为它对当前的数据中心提出了挑战。这些工作负载需要将海量数据馈送至配有处理器（即加速器）的专用服务器。图形处理器（GPU）是加速器的其中一种7。加速器在执行并行处理任务（如LLM训练过程中的并行处理任务）时效率极高。除服务器外，训练还需要数据存储器和将之连接在一起的网络。这些元素可组合成一个机柜阵列，称为“人工智能集群”。它实质上是将集群当成一台计算机来训练一个模型。精心设计的人工智能集群中的加速器在大部分训练时间（从数小时到数月不等）内都以接近100%的利用率运行。训练集群的平均耗电量几乎等于其峰值耗电量（峰均比≈1）。模型越大，需要的加速器越多。大型人工智能集群的机柜功率密度从30 kW到100 kW不等，具体取决于GPU的型号和数量。集群的规模从几个机柜到数百个机柜不等，通常以所用加速器的数量来加以描述。例如，22,000 H100 GPU集群使用约700个机柜，需要约31 MW的电力，平均机柜功率密度为44 kW。请注意，此电力不包括制冷等物理基础设施需求。最后，训练工作负载将模型保存为“检查点”。如果集群发生故障或断电，它可以从中断点继续运行。推理是指将先前训练好的模型投入生产，以预测新查询（输入）的输出。从用户的角度来看，输出的准确性和推理时间（即延迟）之间需要权衡。如果我是一名科学家，我可能愿意支付更高的费用，在两次查询之间等待更长的时间，以获得高准确度的输出。而如果我是一个寻找写作灵感的撰稿人，我会想要一个能即时回答问题的免费聊天机器人。简而言之，业务需求决定推理模型的大小，但很少会使用完整的原始训练模型。相反，我们会部署一个轻量级版本的模型，以在可接受的准确率损失下缩短推理时间。推理工作负载倾向于使用加速器来处理大模型，并且还可能严重依赖CPU，具体取决于应用。自动驾驶技术、推荐型引擎和ChatGPT等应用可能都有不同的IT堆栈，并根据各自要求进行了“调优”。根据模型的大小，每个实例的硬件要求可能从一台边缘设备（如智能手机）到几个服务器机柜不等。也就是说，机柜密度可以从几百瓦到10千瓦以上。与训练不同，推理服务器的数量会随着用户/查询数量的增加而增加。事实上，一款流行的模型（如ChatGPT）推理所需的机柜数量很可能是训练所需的机柜数量的数倍，因为它们现在每天的查询量高达数百万次。最后，推理工作负载通常为业务关键型负载，需要具备韧性（如UPS和/或地理冗余）。 GPU的热设计功耗（TDP）虽然训练或推理离不开存储器和网络，但现在我们重点关注GPU，因为它约占人工智能集群功耗的一半8。每一代GPU的功耗均呈上升趋势。芯片的功耗（以瓦特为单位）通常用TDP表示。虽然我们在此只讨论GPU，但TDP不断增加的总体趋势也发生在其他加速器上。每一代GPU的TDP都在增加，这是GPU为增加运算量而设计的结果，目的是在更短的时间内以更低的成本训练模型并进行推理。表2比较了三代Nvidia GPU在TDP和性能方面的差异9。表2 网络延迟在分布式训练中，每个GPU都必须有一个网口来建立计算网络结构。例如，如果一台人工智能服务器有八个GPU，那么该服务器需要八个计算网口。这种计算网络结构支持大型人工智能集群中的所有GPU以高速（如800 GB/s）协同通信。随着GPU处理速度的提高，网络速度也必须提高，以减少训练模型的时间和成本。例如，使用GPU以900 GB/s的速度处理内存数据，而使用100 GB/s的计算结构，这样会降低GPU的平均利用率，因为它需要等待网络来协调GPU的下一步工作。这就好比买了一辆500马力的自动驾驶汽车，而车载的快速传感器阵列却通过缓慢的网络进行通信；汽车的速度受到网络速度的限制，因此无法充分利用发动机的动力。高速网线价格不菲。例如，InfiniBand光纤的价格是铜缆的10倍。因此，数据科学家会与IT团队合作，尝试使用铜缆用于人工智能训练集群，但必须确保网络布线距离在可接受的延迟范围内。增加每个机柜的端口可以缩短布线距离，这样可以增加每个机柜的GPU数量，但是机柜功率密度将被提高。最终，机柜集群将庞大到以至于延迟迫使设计人员改用光纤，以至于成本增加。请注意，推理工作负载的GPU并行化难度较大，因此这种机柜功率密度关系通常不适用于推理13。人工智能集群规模如上所述，训练大模型可能需要数千个GPU协同工作。鉴于GPU约占集群功耗的一半，GPU数量成为估算数据中心功耗的一个有用替代指标。图1估算了人工智能训练集群中GPU数量与数据中心功耗的函数关系，涉及三代GPU（见表2）。为了更好地理解这些值，我们以一座40,000 kW发电厂为例，这些值相当于该发电厂能够为大约3.1万户美国普通家庭供电。请注意，这三条趋势线并不等同于相同的生产力。也就是说，虽然使用H100 GPU的数据中心的功耗超过使用V100 GPU的数据中心，但H100数据中心的生产力提升远远超过其功耗增加。图1数据中心功耗估计值与GPU数量的函数关系数据中心PUE = 1.3 请注意，本图表未显示生产力提升。上述四个属性和趋势对机柜功率密度有着直接的影响。目前，大多数数据中心可支持大约10至20 kW的峰值机柜功率密度14。不过，在人工智能集群中部署数十或数百个大于20 kW的机柜，将给数据中心运营商带来物理基础设施方面的挑战。这些挑战可能只与供配电有关，也可能涉及两个甚至更多的物理基础设施类别。这些挑战并非不可克服，但运营商应在充分了解相关要求的基础上进行建设和运营，不仅是IT方面的要求，还有物理基础设施方面的要求，尤其是对现有数据中心设施的要求。设施越陈旧，支持人工智能训练工作负载的挑战就越大。下文的主要章节将针对每个物理基础设施类别更详细地介绍这些挑战，并为克服这些挑战提供了指南。请注意，其中的一些推荐设计方法仅适用于新建数据中心，而其他方法则适用于新建和已有（改造）建筑。人工智能工作负载给供配电链路共带来六大挑战，包括开关柜、配电回路和机架式配电单元（rPDU）。供配电 •部署120/208 V配电装置变得不可行•配电模块规格太小，浪费IT空间•部署标准的60/63 A机架式PDU变得不可行•弧闪危险增加，使运维工作变得复杂•负载缺乏变化，增加上游断路器脱扣的风险•机柜温度高，增加了故障风险和安全隐患部署120/208 V配电装置变得不可行 120/208 V是北美数据中心历来使用的电压，适用于相对较低的机柜功率密度（每个机柜大约2~3 kW）且服务器使用120 V电源线供电的情况。如今，对于人工智能集群等高密度负载，该电压显然过低。虽然仍然可以以120/208 V电压为这些负载供电，但这将带来挑战，这些挑战源于以下关系：功率等于电压乘以电流（P = V x A）。正如等式所示，电压越低，相同功率下所需的电流就越大。因此，线缆的载流量必须更大，才能在安全的条件下提供更大的电流。现以由（8）台HPE Cray XD670 GPU加速服务器组成的人工智能训练机柜为例，机柜功率密度共计80 kW。在120/208 V电压下，需要5个60安培线路为机柜供电（每个线路等于120 V x 3相x 60 A x 80%降容修正系数= 17,280 W = 17.3 kW），冗余为1N。如果需要2N的冗余（尽管对于人工智能训练负载并不常见），这一数字将翻倍到10。如果每个机柜有5到10个线路，可以想象，分布在由100个机柜组成的人工智能集群中的电缆会有多么混乱。结果很可能是电源线临时大杂烩式安装，悬挂在机柜上方/附近，这可能会导致人为失误和气流阻塞等问题。因此，这是不切实际的部署方法。此外，安装和管理过多的线路还涉及成本问题。指南：由于电压加倍意味着功率加倍，现有的120/208 V数据中心应将其配电系统改造为240/415 V。新建数据中心应该在设计时考虑240/415 V。有关此主题的更多信息，请参见第128号白皮书《数据中心高效交流配电》。这就引出了下一个挑战，即如何部署240/415 V配电装置。需要注意的是，全球大部分地区都不存在此类挑战，因为许多国家都采用230/400 V的较高电压配电，这适用于满足人工智能型机柜的电力需求。配电模块规格太小，浪费IT空间数据中心配电主要有三种类型：基于变压器的配电单元（PDU）、远程配电盘（RPP）和母线。配电模块规格代表每种配电解决方案的容量（kW）。即使配电电压提高到240/415V（IEC国家为230V），传统的配电模块规格也太小，无法支持当今的人工智能集群容量。十年前，一个300 kW（120/208 V时为833 A）的配电模块可支持100个机柜（五排，每排各20个机柜，平均机柜功率密度为3 kW）。如今，同样的配电模块的电量甚至无法支持NVIDIA DGX SuperPOD的最低配置（单排358 kW的10个机柜，每机柜36 kW）。由于各种原因，在单排机柜上使用多个配电模块是不切实际的。例如，PDU和RPP所占面积至少要增加一倍。与单个大容量配电模块相比，多个配电模块也会增加成本。指南：为满足高密度集群的需求，必须加大配电模块的规格。建议选择规格足够高的配电模块，以至少支持一整排集群。在

点击免费查看完整报告

你可能感兴趣

2023人工智能带来的颠覆：数据中心设计的挑战及相关指南白皮书

你可能感兴趣

2023 中国人工智能系列白皮书——数字社会的风险挑战与治理应对

2023数据中心绿色设计白皮书

【机构龙虎榜解读】人工智能+教育+华为鸿蒙，阿里云授权培训认证合作伙伴，推出“纯血”原生鸿蒙开发学科，基于HarmonyOS NEXT版本最新技术及能力设计，涵盖千余个相关知识点，这家公司获净买入

基于标准PCIe接口的人工智能加速卡液冷设计白皮书

在高等教育中利用人工智能的时代：面向高等教育利益相关者的入门指南