行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

面向下一代人工智能基础设施的800 VDC架构

信息技术 2025-10-09 NVIDIA公司江边的鸟

核心观点与关键数据

数据中心电力需求变化：随着GPU的普及，数据中心从计算空间为中心转变为AI工厂，GPU功率密度大幅提升，电力基础设施需求与计算空间相当甚至超出。
GPU功耗增长趋势：GPU TDP每代约增加20%，NVLink互联导致功率密度进一步增加，例如Hopper到GB300性能提升50倍，TDP增加75%，功率密度增加3.4倍。
负载波动与能量存储：GPU同步导致负载波动，从机架30%空闲到100%利用率，需要解决方案缓解波动，包括优化软件空闲期、能量存储（电解电容器、超级电容器、电池）、消耗功率、限制GPU性能。
电网互连要求：AI负载波动对电网造成挑战，需要储能系统、GPU性能调优、协调控制策略，确保符合电网要求，并支持电网稳定性。
电源分配选项：传统415/480VAC系统面临极限，800VDC可显著降低电流、铜材使用量和电缆体积，提高功率密度。
800VDC配电优势：简化IT电源接口、简化系统架构、与GPU机架直接兼容。
相关行业经验：电动汽车、光伏、铁路等行业已验证LVDC配电可行性。
设施级直流配电选项：800VDC（NVIDIA MGX）、750VDC（ODCA/VDE-SPEC 90037）、±400VDC（OCP标准）、1500VDC（潜在长期目标），800VDC为短期解决方案，1500VDC为长期目标。
800VDC MGX架构：直接将800VDC输入机架，DC/DC转换靠近GPU，使用防触电连接器和机械互锁确保安全，支持±400V设备。
数据中心参考设计：17.5MW电力模块，五个3.5MW中压整流器，1+1冗余电源，本地或集中式能源存储支持。

研究结论

GPU功耗指数级增长和负载波动推动需要新的机架和数据中心电力架构。
结合能源存储和800VDC配电可解决负载波动和GPU功率密度问题，满足未来AI工厂需求。
800VDC是下一代数据中心电力分配的最佳架构，可提高效率、降低成本、简化系统。
需要行业合作就电压范围、连接器、设备认证、安全标准等方面达成一致。
中压整流器和固态变压器是面向未来的设施配电解决方案，中压整流器为近期应用的有力候选。

贾里德·亨廷顿&迈克·图 800V直流电和集成储能的建筑设计必要性目录介绍.3 为了更高效率而增加的电力需求.3负载摆动与能量存储.5电网互连要求.7电力分配选项.9800VDCMGX架构.13数据中心参考设计.16行业合作与未来发展道路.17结论.18 介绍就在几年前，数据中心还是围绕计算空间建造的，庞大的服务器数据大厅中，电源和冷却系统只占据了较小的空间比例。随后，GPU革命出现，将数据中心转变为“AI工厂”。如图1所示，与网页服务器相比，GPU机架的功率密度接近提高了100倍，并且功率的增加几乎呈指数级发展，改变了原本的平衡。电力基础设施曾经是次要的，现在却与计算所占空间相匹敌，甚至超出。随着CPU或GPU的改进，通常每一代的GPU热设计功耗（TDP）会有约20%的递增。这导致每台服务器所需的功率随时间增加。Nvidia的NVLink允许多个GPU互联，从而有效地作为一个大型同步GPU运行，并在与以太网连接相比时提供显著的性能提升。从功率和成本角度来看，当GPU通过铜连接时，这种互联是最有效的，但由于信号完整性，其传输距离有限。由于实现最高性能需要更多的GPU在同一个铜域内运行（传输距离有限），因此最大性能与最大功率密度相关。这意味着功率增长不再是每代约20%，而是随着NVLink网络域规模的增加，很容易达到2倍、4倍甚至8倍。上图2中的一个例子是从Hopper到GB300的性能提升。TDP功耗增加了75%，但通过这些改进，性能提升了50倍。这也导致机架功率密度增加了3.4倍，从4x8GPUNVLink域（机架中32个）增加到72GPUNVLink域。随着GPU封装和包装的改进以及网络拓扑向更大的域规模发展，这种功率密度可以继续增加。与过去的GPU相比，这种在NVLink域范围内的发电量增加导致功率增长速度更快。一个次要目标是尽可能将更多电源组件从NVLink域半径中移出，因为这是机架中性能价值最高的区域。这种提高功率水平并将电源组件远离GPU的组合，推动了对不同机架电源架构的需求。为了满足这些前所未有的需求，800VDC已成为下一代电力分配的最佳架构。它可以在计算空间中最小化转换和布线体积，同时减少数据中心分配损耗和整体端到端转换阶段。相比机架内的54VDC或设施级的480VAC系统，800VDC显著降低了电流、铜材使用量和电缆体积，同时保持安全性和可扩展性。它受益于碳化硅（SiC）和氮化镓（GaN）功率转换器件的日益成熟，以及电动汽车（EV）行业对800VDC系统的广泛采纳。这使得从电网到机架的无缝端到端集成成为可能，实现超过1MW的更高功率密度。数据中心历史上由运行各种工作负载的数千台服务器组成。借助GPU，这些工作负载可以在整个数据中心同步，从而在非常短的时间内导致巨大的负载波动。可以使用能源存储来缓解这些波动。这种数据中心电力的快速变化基础设施需求使行业处于十字路口。为了跟上未来GPU的需求，我们需要重新思考供电方式。这引导我们迈向更高效、可扩展、并能够应对极度动态AI工作负载的下一代配电系统。将800VDC架构与储能整合，是为未来AI工厂做好准备的关键。本文白皮书涵盖了推动数据中心变革的因素，以及如何从电网到芯片为高功率密度AI工厂分配电力的前瞻性愿景。负荷摆动与能量储存 GPU同步的一个结果是它们的工作负载以及因此的功耗特征也会同步。这在超级计算机中已经存在几十年了，但现在在AI工厂部署中也被广泛认为是一个挑战。在典型的LLM工作负载中，会有一段强烈的矩阵计算间隔，然后是数据交换的间隔。如果不加以缓解，这会导致功耗快速波动，从机架功率的约30%空闲到100%功率利用率。这不仅对机架的功率分配造成问题，在集群规模足够大时，它在数据中心层面甚至电网层面也会成为问题。为了应对这些负载波动，可以采取多种方法，如图3所示：使用储能来平抑负载需求。解决方案1–优化软件空闲期–如果可以在软件中最小化这些空闲期，这是理想的解决方案，因为它可以降低数据中心的电力需求。解决方案二–能量存储–应对这些负载波动的一种节能方法是使用能量存储。能量存储允许在空闲期间充电，在高峰期间放电，从而对机架电流需求进行低通滤波。这种能量存储可以采用多种形式，如电解电容器、超级电容器、电池等。解决方案3–消耗功率–这是通过NvidiaGPU的电源平滑功能完成的。这允许在延迟后消耗功率，使得功率仅在能量储存限制达到后才消耗。已达到。这本身并不理想，但结合能源存储，可以在本地能源存储无法维持的较长闲置期间提供后备支持。解决方案4–限制GPU性能以减少峰值–这些软件控制可在NvidiaGPU上使用，但这不是理想方案，因为它可能会在某些工作负载下降低性能。这四种解决方案可以结合使用，以提供全面的负载波动缓解策略。理想情况下，能源存储用来覆盖大部分负载波动持续时间，而燃烧功率和性能调节仅在极端情况下作为备用。正如图4所示，实际负载远比上面显示的理想化波形更具动态性。在查看GPU工作负载时，Error!Referencesourcenotfound.Error!Referencesourcenotfound.是在多个时间尺度上的事件。观察整个系统，有电网级的波动需求以及GPU负载需求。能源存储需要填补这两个相互冲突的需求之间的差距；电网需要稳定且可预测的负载，而GPU需要非常动态的能源来源。 GPU超调被称为电气设计点(EDPp)，峰值功耗和典型工作负载空闲时间范围可达100毫秒，检查点保存可能需要1到5秒，然后工作负载的增加和减少需要在几分钟内完成。此外，根据具体的使用场景，可能需要使用储能作为过渡电源，以确保即使在主电源丢失后切换到备用电源期间，负载仍能正常运行。上图显示了不同能源存储解决方案的体积随时间的变化。按体积计算，电解电容器是处理低于100毫秒时间段的良好解决方案。在100毫秒至10秒之间的时间段，有多种优化的解决方案，而在超过该时间尺度的情况下，电池是更好的体积化解决方案。尽可能靠近GPU缓解负载波动是理想的，以保持数据中心的升降速率可控，并减少有效值电流的增加。一个50%占空比、峰值为平均值50%的方波，然后回到空闲状态，将导致有效值损耗增加25%。数据中心的设备需要根据机架的峰值电流以及有效值损耗的增加进行尺寸设计，因此尽可能将这些峰值降低到靠近GPU的位置，对于降低整个数据中心设备的成本和影响具有重要意义。电网互连要求上述负荷需求由于其电力需求的规模和波动性，带来了前所未有的互联挑战。电网运营商开始要求更大的负荷灵活性，可控性和可预测性，以维持电网稳定，避免为峰值需求过度建设，并减轻对输电基础设施的压力。 AI工作负载的无缓解阶跃变化，尤其是来自大型、同步GPU集群的变化，可能导致电压和频率快速偏离可接受范围。这些事件可能违反互连要求，降低电网性能，并导致互连审批的延迟或拒绝。为了确保及时接入电网并保证长期稳定运行，AI计算负载应包含计算设置调整、主动功率调节以及通过以太网进行的电网合规控制，包括： •能源存储系统：能量存储（长时和短时）结合快速实时功率补偿，以稳定电力消耗、控制斜率变化，并减轻大幅度变化。 •GPU性能调优与工作负载调节：调整计算固件和操作设置，以平滑快速的功率波动、限制周期间的变化速率，并抑制峰值功率行为。•协调控制策略：整合储能、计算和设施配电系统，以确保符合公用事业关于斜率速率、暂态稳定性、谐波/闪变和电压耐受(VRT)的要求，同时支持整体电网的稳定性。展望未来，人工智能工厂有潜力发展成为支持电网的资产，而不仅仅是作为大型被动负载运行。通过采用先进的技术能力，行业合作伙伴可以帮助确保人工智能基础设施不仅能够可持续地扩展，还能增强其所依赖的能源系统的稳健性。 •通过以太网实现的电网形成型和快速响应控制，在电网扰动期间积极支持电压和频率稳定性。增强内部IT负载的故障穿越能力，通过参考ERCOT电压穿越(VRT)要求，超越当前ITIC曲线的预期，适用于大功率电子负载，以在电压下降或故障期间维持关键操作并支持电网恢复。有关详细信息，请参阅链接：https://www.ercot.com/calendar/07112025‑LLWG‑Meeting。 •实时电力支持，在电网压力大时提供补充电力，在电力过剩时吸收多余电力，有助于平稳突发变化，维持公共电网的稳定。 •具有韧性的系统设计和运营实践，使人工智能工厂能够作为整体电网可靠性和韧性的贡献者，从而实现部署的更快速、更可预测的扩展。为了确保高密度人工智能工厂的电网稳定性和电能质量，必须在电气架构的两端战略性地部署储能系统。储能系统，例如电池储能系统（BESS），应放置在接近公用事业接入点以及厂区自发电的附近。管理大型GPU集群的稳态功率波动。BESS提供负载平衡、并网支撑以及从电网切换到发电机时的过渡电力。在另一端，短时储能设备如电容器被集成在计算机机架附近，以缓解由AI工作负载产生的快速动态功率变化（快至400微秒）。这些设备用于限制功率变化速率并吸收功率峰谷，确保对敏感计算基础设施提供稳定且可预测的800VDC电源。这种双层储能策略对于满足AI原生电力系统的性能和可靠性需求至关重要。互连审批仍然是AI工厂部署的主要瓶颈，这在很大程度上是由于GPU驱动的负载波动不可预测。需要行业协作来建立标准化的负载行为模型、响应指标和调节要求。在提升率限制、负载灵活性和能源存储整合方面达成明确共识，将帮助公用事业公司更有信心地评估AI工厂项目，加快审批速度，并实现更快速、更可扩展的部署。能源存储必须被视为AI工厂架构的核心元素。除了稳定GPU负载外，其标准化角色应涵盖瞬态缓解、备用电源和负载调节，并提供通用集成接口，以实现机架、行或设施级别的无缝部署。这种方法确保与电力转换系统和电网接入方案的互操作性，提高设备利用率，并在不影响计算性能的情况下实现可靠扩展。电源分配选项传统的415V或480V三相交流电力系统长期以来支持了数据中心的增长。然而，随着计算机机架功率密度接近并超过兆瓦级，这些系统正达到其实际限制。 •鞭线尺寸和载流量：典型的交流鞭线额定电流为60A或100A，受热限制和连接器标准（如IEC60309）约束。•机架电源接口：更高的机架电源需求需要更多和/或更大的输入连接，占用宝贵的机架空间，并使线缆管理更加复杂。•电力资产协调：管理和保护多个交流电源增加了设计复杂性，并占用更多设备空间。随着机架级功率的上升，使用传统的交流配电会导致系统复杂性增加、组件增多、可扩展性降低，从而推高下一代部署的资本成本和运营成本。从下表中可以看到，通过额定持续电流为48A的固定线规传输的功率与电压的关系，当从415VAC转换为800VDC时，通过相同铜导体截面积传输的功率可以增加157%。在北美，从现有基础设施中获取更多功率的一种常见方法是使用480VAC，但这仅能提高16%的基础设施容量。如果进一步采用1500VDC配电，通过相同导体尺寸传输的功率将增加382%. 过渡到800VDC配电转向800伏直流设施级配电可应对这些挑战，并提供几个关键优势： •简化的IT电源接口：随着GPU机架的功率密度迅速超越传统Web服务器，达到兆瓦级别，现有的415/480VAC电缆和连接方案已不再可行。转向800VDC可实现机架的精简物理接口，显著减少所需的电缆和组件数量。这简化了安装、减少了空间占用，并提升了运营灵活性：在电力基础设施如今在占地面积和复杂性上已与计算能力相当的情况下，这些因素尤为关键。 •简化系统架

点击免费查看完整报告

【上海:推动下一代移动通信、量子计算、光子计算等前沿技术产业布局】财联社10月14日电,上海市经济和信息化委员会日前印发《上海市智能终端产业高质量发展行动方案(2026-2027年)》,加速未来终端研发。推动下一代移动通信、量子计算、光子计算等前沿技术产业布局。开展先进无线通信、新型网络架构、空天地一体等前沿技术研究;推动量子计算领域算法纠错等核心难点研发突破,发挥量子计算的优越性,研制未来终端概念样机,并不断探索向垂直行业应用渗透,形成特色应用场景模版。

未知机构2025-10-14

微软+利用大模型打造更聪明的猴子：下一代跨平台软件测试基础设施+Hydra+Lab

信息技术全球软件开发大会2023-09-15

面向下一代人工智能基础设施的800 VDC架构

核心观点与关键数据

研究结论

你可能感兴趣

面向下一代人工智能基础设施的800 VDC架构：800 V直流电和集成储能的建筑设计必要性

面向下一代人工智能基础设施的800伏直流架构

AI安全解决方案白皮书——构建面向 AI 基础设施的安全架构

面向下一代互联网Web3.0可信数字身份基础设施白皮书（2024年）

人工智能行业：算力奔腾时代，重构数据中心电源及基础设施架构脉络

密态计算白皮书：面向数据要素“外循环”的下一代隐私保护计算技术

为什么说TPU可能是更适合AI的下一代架构

破局与重构：面向下一代智慧医疗的技术瓶颈分析与创新范式展望

微软+利用大模型打造更聪明的猴子：下一代跨平台软件测试基础设施+Hydra+Lab