100 MW超大规模 AI数据中心架构蓝图 采用Tier III级可并行维护设计架构,集成西门子工业级电气系统、NVIDIA GB200 NVL72系统和nVent液冷技术,适用于UL市场。 1.引言 摘要: 本白皮书提出了一个100 MW级超大规模AI数据中心的参考架构蓝图,旨在支持基于NVIDIA GB200 NVL72平台的系统部署,例如NVIDIA DGX GB200或NVIDIA合作伙伴的系统。该蓝图采用具备Tier III能力的架构设计,集成西门子工业级电气系统、NVIDIA GB200 NVL72系统及nVent液冷技术,适用于符合UL规范的市场环境。 对于超大规模环境而言,核心性能指标十分明确:一是数据中心的部署投产速度,即从建设到开始产生Token的周期能够否更短?二是能效表现,即每瓦可产生的Token数量能否更高?本蓝图提出了一套专为满足上述需求而设计的100MW级人工智能数据中心参考架构。 通过可扩展的、高效的基础设施加速AI价值实现 本文系统阐述Pod级模块化架构、电力分配、冷却、控制与自动化系统,以及面向规模化部署的运行可扩展性设计。同时,本文同时给出定义、术语、示意图及附录,以便技术规划、设计协同及相关方的一致。 在释放人工智能全部潜力的进程中,基础设施不仅需要提供基础供电,更必须兼顾部署速度、能效表现与系统韧性。 该解决方案围绕NVIDIA GB200 NVL72机架设计,具备Tier III级的架构设计,,通过集成西门子工业级电气系统与nVent液冷技术,实现快速部署、高算力密度与运行连续性的核心目标。凭借模块化机柜级可扩展性、智能自动化与容错设计,该架构助力运营商最小化算力上线时间、最大化每瓦Token产出,在全球分布式站点间实现可预测的稳定性能。 目录 1.简介3 2.概述:趋势,挑战及设计理念4 3.配电架构8 4.低压架构及机柜布局12 5.冷却架构16 6.自动化与控制17 7.总结20 8.附录:术语,定义21 2.概述:趋势、挑战与设计原理 为支撑下一代数字基础设施的发展,数据中心必须在多个维度实现升级,包括电力系统、冷却系统、全球部署能力以及运营的韧性。随着工作负载日益密集且呈分布式发展趋势,基础设施需要通过更加智能化、自适应的系统架构,在性能、能效与可扩展性之间实现动态平衡。 以下要点概述了塑造高密度、高可用性环境的关键架构变革方向。 采用模块化高密度机柜单元,保障系统持续可用性 持续提升的机架功率密度 随着人工智能对算力需求的持续增长,单机架功率密度已突破100 kW,并呈进一步上升趋势。这一变化要求对电力分配架构进行系统性重构,具体包括采用高电压供电方式。通过深度融合信息技术侧与动态负载均衡系统,实现运营技术侧的快速控制响应,可实时应对负载变化 模块化高密度机柜单元将配电、冷却与网络系统深度整合,形成具备可扩展性与故障隔离能力的独立功能单元,专为快速部署与业务连续性设计。 为应对上述设计挑战,该架构提供了一个可扩展的高密度数据中心蓝图,专为超大规模AI工作负载而设计。架构核心采用NVIDIA GB200 NVL72集群,每个集群集成72个NVIDIAGPU与36个NVIDIA Grace CPU,通过NVIDIA NVLinkTM互联互通。单机架额定功率达127 kW,这些高性能AI系统需要先进的热和电力基础设施。本参考设计可承载最高100 MW级的IT负载,分布在多个模块化Pod中,专为UL市场中的Tier III级可并行维护架构而设计。 该参考架构整合西门子工业级电气与自动化系统、nVent直达芯片液冷方案以及NVIDIA GB200 NVL72平台,在全球部署的配置中提供稳定的性能表现。 该架构支持实时监测、预测性维护以及简化的资源配置,在保障系统高可用性的同时,最大化每瓦的算力产出,并能在核心数据中心、边缘节点及混合云环境中实现标准化一致部署。 这些能力可在保障系统稳定性与运行效率的同时,为高密度算力的规模化部署提供坚实支撑。 通过系统协同控制,可实现电力与热管理的实时优化,在降低PUE的同时提升运行效率,助力企业实现可持续发展目标。 后续章节将系统阐述本架构的物理结构布局、电气架构与冷却拓扑结构,以及相应的部署模式。 高密度热负载亟需先进液冷解决方案 全球部署考量 随着算力负载持续提升,传统风冷已难以满足高功率密度环境下的散热需求。在多种技术路径中,单相液冷成为高密度热负载场景的首选解决方案。集成控制系统随负载与环境实时调节制冷与供电,从而优化能源利用效率并维持系统热稳定性。 不同地理气候条件会直接影响数据中心的能效表现。高温、高湿环境会增加冷却系统负荷,而寒冷地区则可通过提升自 然 冷 源 利 用 比 例 实 现 更 优 的 能 耗 控制。 基础设施必须通过智能化、自适应系统架构应对上述差异,在实现能源利用优化的同时并保持稳定性能输出。这些技术能力可为企业实现更广泛的可持续发展目标提供支撑,包括碳排放减少、满足区域能效标准及契合企业ESG战略。 参考架构示意图 100 MW超大规模AI数据中心设计蓝图 中压配电架构示意图 100 MW超大规模AI数据中心设计蓝图 3.配电架构 电力系统按照Tier III(可并行维护)要求进行设计,采用4取3冗余模型,在设备维护或故障的场景中能够持续保障系统运行。每个机柜单元由模块化UPS系统与母线槽配电结构提供支撑,支持按需扩展部署并简化运维流程。 市电与发电机进线额定电流范围为2000–3000 A,以满足高密度算力部署及冗余供电要求。在单个机柜单元内,配电方案如下: •每台服务器机架配置8路60 A供电回路,以支持NVIDIAGB200 NVL72负载需求•每台网络及配套机架配置2路30 A供电回路•每台冷却分配单元(CDU)配置4路30 A供电回路 在机架层面,系统统一采用415 V AC低压配电。主配电柜直接向机架输入415V供电,以减少配电层级并提升整体效率。每个机柜单元配置4台415 V、1500 kW的UPS模块。电力可通过架空母线槽或配电柜进行分配,具体方式可根据站点条件及实施偏好进行选择。 这种模块化、高容量的电力设计方案,既为未来算力扩容提供了灵活性,又能在机柜单元层面实现故障隔离与便捷的设备维护。 主断路器-母线槽系统(MBB)单线图(SLD) 100 MW超大规模AI数据中心设计蓝图 1)4个主配电柜2)4台415VAC 1500kW UPS3)6台冷却分配单元CDU8004)8个母线槽主分接箱5)128个母线插接箱,每个插接箱带2个60A断路器(服务器机柜)6)64个母线插接箱,每个插接箱带1个30A断路器(辅助机柜)7)12个母线插接箱,每个插接箱带1个30A断路器 典型配置选项及说明:主配电柜415VAC,电流最高可至5000A,取决于非IT负载 1)2)CDU电源选项A)从IT母线槽馈电(本页展示方案)B)由UPS支持的非IT负载单独供电。3)母线插接箱的断路器类型30 A,每个插接箱标准配置2个断路器,每个插接箱最多可配置4个断路器4)N+1供电架构,每个NVL72机架配置8个电源架5)网络机架的供电电源可以从4个减少到2个 4.低压模块架构及Pod机柜布局 每个模块化单元(Pod)均配备高可靠性低压配电系统,用以支撑高密度算力负载与制冷负载。其配电架构包括每个机柜单元配置4个415 V、3000 A的主配电柜。电力通过架空母线槽或配电柜输送到IT机柜和配套机架。母线插接箱按2英尺间距部署,可安装在母线槽的一侧或两侧,每个插接箱支持安装1到4个断路器。 Pod机柜单元布局采用N+1电源冗余,每个NVIDIA GB200NVL72系统配备8个电源架,以支持127 kW的负载。网络和配套机架配备2路电源馈线,而冷却分配单元CDU配置4路电源馈线,以保障冷却系统的持续运行。 该模块化的低压配电设计确保了稳定的电力传输,简化了安装过程,并支持在全球分布式站点的可扩展部署。该电气架构可扩展支持下一代更高密度的机架,包括NVIDIA GB300 NVL72系统。 每个网络和配套机架通常配置2路30 A供电回路,每个冷却分配单元(CDU)则通过4路30 A回路进行供电。 冷却架构示意图 5.冷却架构 100 MW超大规模AI数据中心设计蓝图 该系统架构符合ASHRAE W32–W45温水运行等级,在温带气候环境下可实现全年大部分时间的无冷机运行,最大限度减少对传统机械制冷的依赖,从而提升整体能效表现,优化能源结构,并显著降低全生命周期的总持有成本。该架构兼具了内在冗余与高效运维设计特点,不仅简化大规模部署的流程,还有效降低维护操作节点,为规模化运营提供更高可靠性与更低运维成本。 每 个 机 架 配 备 专 用 液 冷 系 统 , 采 用 模 块 化 冷 却 分 配 单 元(CDU),可根据高密度AI系统的IT液冷热负载需求进行扩展。冷却分配系统在机架侧或机房层级进行部署,采用A/B双路冗余架构,确保在维护或故障情况下仍可持续运行。 在机柜单元层级,冷却基础设施主要针对NVIDIA GB200NVL72系统进行设计。通过三台CDU800冷却分配单元,可满足最高达1.63 MW的IT液冷热负载,温差(ATD)可低至4K。每台CDU800是由两台水泵分别配置两路完全独立的外部供电回路,避免了传统单电源CDU架构中单一输入断路器带来的固有可用性风险,显著提升系统可靠性。由于每台CDU800仅需一台水泵处于运行状态的情况下,就可为NVIDIA GB200 NVL72系统提供544 kW全容量的制冷能力,因此即使发生单台泵、驱动器或电源回路故障,也不会导致冷却性能降级。剩余独立供电水泵系统仍可维持额定冷却能力,实现电气可用性与散热能力的彻底解耦,无需依赖N+1 CDU冗余扩容,显著提升架构效率与可靠性。 该 液 冷 架 构可无 缝扩展 至下 一代 算 力 平台 的 集 群部 署(如NVIDIA GB300 NVL72集群),并可直接沿用GB200 NVL72架构中部署的三台CDU800冷却分配单元。当需要增加容量或提升冗余等级时,可在不对现有液冷基础设施进行改造的情况下集成第四台CDU800,在保持设计一致性的同时,为下一代算力系统提供灵活的扩容余量。 6.自动化与控制 每台液冷机柜均配置独立的机柜级遥测与控制网关,用于持续监测本地传感器数据,并控制机柜级调节阀与控制阀运行。该智能网关作为CDU控制系统与IDCMS之间的数字桥梁,可实现对整个冷却网络内液体流量、温度与压力的协同优化。 基于集成数据中心管理套件(IDCMS)构建的自动化与控制架构,通过开放式通信协议实现子系统集成与互操作性,提供灵活且可扩展的系统基础架构。IDCMS作为楼宇管理和能源与电力管理的统一平台,深度集成NVIDIA Mission Control,可实现对服务器、网络及基础设施的全面可视化与集中管控。 当机柜发生泄漏或异常时,网关可即时向IDCMS与CDU发送信号,触发机柜级自动隔离机制,在抑制问题的影响范围的同时保持其他IT设备的冷却供应的连续性。该集成控制策略可显著提升系统性能,保障运行连续性,并为超大规模AI数据中心环境提供快速响应的保护能力 该集成架构构建了一个高可用、低时延、统一的监控环境,实现运营技术(OT)与信息技术(IT)层之间的无缝衔接。该系统可支持基于NVIDIA GB200 NVL72的数据中心实现安全、高效与优化的稳定运行。 自动化控制层采用基于PLC可编程控制器的热备N+1冗余架构,结合分布式远程I/O输入输出模块,实现对POD机柜单元内HVAC暖通空调风冷系统的高可靠控制。系统同时与nVent冷却分配单元(CDU)集成,管理服务器的直达芯片液冷(Direct-to-Chip)系统。智能电动阀与多级泄漏检测传感器可实现冷却液流量的精准控制并对流体的异常情况做出即时