贾里德·亨廷顿&迈克·图 800V直流电和集成储能的建筑设计必要性 目录介绍.3 为了更高效率而增加的电力需求.3负载摆动与能量存储.5电网互连要求.7电力分配选项.9800VDCMGX架构.13数据中心参考设计.16行业合作与未来发展道路.17结论.18 介绍 就在几年前,数据中心还是围绕计算空间建造的,庞大的服务器数据大厅中,电源和冷却系统只占据了较小的空间比例。随后,GPU革命出现,将数据中心转变为“AI工厂”。如图1所示,与网页服务器相比,GPU机架的功率密度接近提高了100倍,并且功率的增加几乎呈指数级发展,改变了原本的平衡。电力基础设施曾经是次要的,现在却与计算所占空间相匹敌,甚至超出。 随着CPU或GPU的改进,通常每一代的GPU热设计功耗(TDP)会有约20%的递增。这导致每台服务器所需的功率随时间增加。Nvidia的NVLink允许多个GPU互联,从而有效地作为一个大型同步GPU运行,并在与以太网连接相比时提供显著的性能提升。从功率和成本角度来看,当GPU通过铜连接时,这种互联是最有效的,但由于信号完整性,其传输距离有限。由于实现最高性能需要更多的GPU在同一个铜域内运行(传输距离有限),因此最大性能与最大功率密度相关。这意味着功率增长不再是每代约20%,而是随着NVLink网络域规模的增加,很容易达到2倍、4倍甚至8倍。 上图2中的一个例子是从Hopper到GB300的性能提升。TDP功耗增加了75%,但通过这些改进,性能提升了50倍。这也导致机架功率密度增加了3.4倍,从4x8GPUNVLink域(机架中32个)增加到72GPUNVLink域。随着GPU封装和包装的改进以及网络拓扑向更大的域规模发展,这种功率密度可以继续增加。 与过去的GPU相比,这种在NVLink域范围内的发电量增加导致功率增长速度更快。一个次要目标是尽可能将更多电源组件从NVLink域半径中移出,因为这是机架中性能价值最高的区域。这种提高功率水平并将电源组件远离GPU的组合,推动了对不同机架电源架构的需求。 为了满足这些前所未有的需求,800VDC已成为下一代电力分配的最佳架构。它可以在计算空间中最小化转换和布线体积,同时减少数据中心分配损耗和整体端到端转换阶段。相比机架内的54VDC或设施级的480VAC系统,800VDC显著降低了电流、铜材使用量和电缆体积,同时保持安全性和可扩展性。它受益于碳化硅(SiC)和氮化镓(GaN)功率转换器件的日益成熟,以及电动汽车(EV)行业对800VDC系统的广泛采纳。这使得从电网到机架的无缝端到端集成成为可能,实现超过1MW的更高功率密度。 数据中心历史上由运行各种工作负载的数千台服务器组成。借助GPU,这些工作负载可以在整个数据中心同步,从而在非常短的时间内导致巨大的负载波动。可以使用能源存储来缓解这些波动。这种数据中心电力的快速变化 基础设施需求使行业处于十字路口。为了跟上未来GPU的需求,我们需要重新思考供电方式。这引导我们迈向更高效、可扩展、并能够应对极度动态AI工作负载的下一代配电系统。将800VDC架构与储能整合,是为未来AI工厂做好准备的关键。本文白皮书涵盖了推动数据中心变革的因素,以及如何从电网到芯片为高功率密度AI工厂分配电力的前瞻性愿景。 负荷摆动与能量储存 GPU同步的一个结果是它们的工作负载以及因此的功耗特征也会同步。这在超级计算机中已经存在几十年了,但现在在AI工厂部署中也被广泛认为是一个挑战。在典型的LLM工作负载中,会有一段强烈的矩阵计算间隔,然后是数据交换的间隔。如果不加以缓解,这会导致功耗快速波动,从机架功率的约30%空闲到100%功率利用率。这不仅对机架的功率分配造成问题,在集群规模足够大时,它在数据中心层面甚至电网层面也会成为问题。 为了应对这些负载波动,可以采取多种方法,如图3所示:使用储能来平抑负载需求。 解决方案1–优化软件空闲期–如果可以在软件中最小化这些空闲期,这是理想的解决方案,因为它可以降低数据中心的电力需求。 解决方案二–能量存储–应对这些负载波动的一种节能方法是使用能量存储。能量存储允许在空闲期间充电,在高峰期间放电,从而对机架电流需求进行低通滤波。这种能量存储可以采用多种形式,如电解电容器、超级电容器、电池等。 解决方案3–消耗功率–这是通过NvidiaGPU的电源平滑功能完成的。这允许在延迟后消耗功率,使得功率仅在能量储存限制达到后才消耗。 已达到。这本身并不理想,但结合能源存储,可以在本地能源存储无法维持的较长闲置期间提供后备支持。 解决方案4–限制GPU性能以减少峰值–这些软件控制可在NvidiaGPU上使用,但这不是理想方案,因为它可能会在某些工作负载下降低性能。 这四种解决方案可以结合使用,以提供全面的负载波动缓解策略。理想情况下,能源存储用来覆盖大部分负载波动持续时间,而燃烧功率和性能调节仅在极端情况下作为备用。正如图4所示,实际负载远比上面显示的理想化波形更具动态性。 在查看GPU工作负载时,Error!Referencesourcenotfound.Error!Referencesourcenotfound.是在多个时间尺度上的事件。观察整个系统,有电网级的波动需求以及GPU负载需求。能源存储需要填补这两个相互冲突的需求之间的差距;电网需要稳定且可预测的负载,而GPU需要非常动态的能源来源。 GPU超调被称为电气设计点(EDPp),峰值功耗和典型工作负载空闲时间范围可达100毫秒,检查点保存可能需要1到5秒,然后 工作负载的增加和减少需要在几分钟内完成。此外,根据具体的使用场景,可能需要使用储能作为过渡电源,以确保即使在主电源丢失后切换到备用电源期间,负载仍能正常运行。 上图显示了不同能源存储解决方案的体积随时间的变化。按体积计算,电解电容器是处理低于100毫秒时间段的良好解决方案。在100毫秒至10秒之间的时间段,有多种优化的解决方案,而在超过该时间尺度的情况下,电池是更好的体积化解决方案。尽可能靠近GPU缓解负载波动是理想的,以保持数据中心的升降速率可控,并减少有效值电流的增加。一个50%占空比、峰值为平均值50%的方波,然后回到空闲状态,将导致有效值损耗增加25%。数据中心的设备需要根据机架的峰值电流以及有效值损耗的增加进行尺寸设计,因此尽可能将这些峰值降低到靠近GPU的位置,对于降低整个数据中心设备的成本和影响具有重要意义。 电网互连要求 上述负荷需求由于其电力需求的规模和波动性,带来了前所未有的互联挑战。电网运营商开始要求更大的负荷灵活性, 可控性和可预测性,以维持电网稳定,避免为峰值需求过度建设,并减轻对输电基础设施的压力。 AI工作负载的无缓解阶跃变化,尤其是来自大型、同步GPU集群的变化,可能导致电压和频率快速偏离可接受范围。这些事件可能违反互连要求,降低电网性能,并导致互连审批的延迟或拒绝。 为了确保及时接入电网并保证长期稳定运行,AI计算负载应包含计算设置调整、主动功率调节以及通过以太网进行的电网合规控制,包括: •能源存储系统:能量存储(长时和短时)结合快速实时功率补偿,以稳定电力消耗、控制斜率变化,并减轻大幅度变化。 •GPU性能调优与工作负载调节:调整计算固件和操作设置,以平滑快速的功率波动、限制周期间的变化速率,并抑制峰值功率行为。•协调控制策略:整合储能、计算和设施配电系统,以确保符合公用事业关于斜率速率、暂态稳定性、谐波/闪变和电压耐受(VRT)的要求,同时支持整体电网的稳定性。 展望未来,人工智能工厂有潜力发展成为支持电网的资产,而不仅仅是作为大型被动负载运行。通过采用先进的技术能力,行业合作伙伴可以帮助确保人工智能基础设施不仅能够可持续地扩展,还能增强其所依赖的能源系统的稳健性。 •通过以太网实现的电网形成型和快速响应控制,在电网扰动期间积极支持电压和频率稳定性。 增强内部IT负载的故障穿越能力,通过参考ERCOT电压穿越(VRT)要求,超越当前ITIC曲线的预期,适用于大功率电子负载,以在电压下降或故障期间维持关键操作并支持电网恢复。有关详细信息,请参阅链接:https://www.ercot.com/calendar/07112025‑LLWG‑Meeting。 •实时电力支持,在电网压力大时提供补充电力,在电力过剩时吸收多余电力,有助于平稳突发变化,维持公共电网的稳定。 •具有韧性的系统设计和运营实践,使人工智能工厂能够作为整体电网可靠性和韧性的贡献者,从而实现部署的更快速、更可预测的扩展。 为了确保高密度人工智能工厂的电网稳定性和电能质量,必须在电气架构的两端战略性地部署储能系统。储能系统,例如电池储能系统(BESS),应放置在接近公用事业接入点以及厂区自发电的附近。 管理大型GPU集群的稳态功率波动。BESS提供负载平衡、并网支撑以及从电网切换到发电机时的过渡电力。在另一端,短时储能设备如电容器被集成在计算机机架附近,以缓解由AI工作负载产生的快速动态功率变化(快至400微秒)。这些设备用于限制功率变化速率并吸收功率峰谷,确保对敏感计算基础设施提供稳定且可预测的800VDC电源。这种双层储能策略对于满足AI原生电力系统的性能和可靠性需求至关重要。 互连审批仍然是AI工厂部署的主要瓶颈,这在很大程度上是由于GPU驱动的负载波动不可预测。需要行业协作来建立标准化的负载行为模型、响应指标和调节要求。在提升率限制、负载灵活性和能源存储整合方面达成明确共识,将帮助公用事业公司更有信心地评估AI工厂项目,加快审批速度,并实现更快速、更可扩展的部署。 能源存储必须被视为AI工厂架构的核心元素。除了稳定GPU负载外,其标准化角色应涵盖瞬态缓解、备用电源和负载调节,并提供通用集成接口,以实现机架、行或设施级别的无缝部署。这种方法确保与电力转换系统和电网接入方案的互操作性,提高设备利用率,并在不影响计算性能的情况下实现可靠扩展。 电源分配选项 传统的415V或480V三相交流电力系统长期以来支持了数据中心的增长。然而,随着计算机机架功率密度接近并超过兆瓦级,这些系统正达到其实际限制。 •鞭线尺寸和载流量:典型的交流鞭线额定电流为60A或100A,受热限制和连接器标准(如IEC60309)约束。•机架电源接口:更高的机架电源需求需要更多和/或更大的输入连接,占用宝贵的机架空间,并使线缆管理更加复杂。•电力资产协调:管理和保护多个交流电源增加了设计复杂性,并占用更多设备空间。 随着机架级功率的上升,使用传统的交流配电会导致系统复杂性增加、组件增多、可扩展性降低,从而推高下一代部署的资本成本和运营成本。 从下表中可以看到,通过额定持续电流为48A的固定线规传输的功率与电压的关系,当从415VAC转换为800VDC时,通过相同铜导体截面积传输的功率可以增加157%。在北美,从现有基础设施中获取更多功率的一种常见方法是使用480VAC,但这仅能提高16%的基础设施容量。如果进一步采用1500VDC配电,通过相同导体尺寸传输的功率将增加382%. 过渡到800VDC配电 转向800伏直流设施级配电可应对这些挑战,并提供几个关键优势: •简化的IT电源接口:随着GPU机架的功率密度迅速超越传统Web服务器,达到兆瓦级别,现有的415/480VAC电缆和连接方案已不再可行。转向800VDC可实现机架的精简物理接口,显著减少所需的电缆和组件数量。这简化了安装、减少了空间占用,并提升了运营灵活性:在电力基础设施如今在占地面积和复杂性上已与计算能力相当的情况下,这些因素尤为关键。 •简化系统架