背景与动机
Meta 的 IT 能力持续增长,硬件和数据中心设施的安全互操作性至关重要。随着处理器功率提高,机架功率密度增加,需要确保现有数据中心设施能够支持高气流机架。
问题陈述
研究假设在相同的 DC 包络下,更高的机架功率和气流会导致热风险,尝试为现有数据中心设施定义边界/约束,并提出解决方案以支持高气流机架的部署。
元数据中心与数据中心气流路径
- 元数据中心运营范围介于 65-85°F 之间。
- 典型操作中,冷通道保持正压差,热通道保持负压差。
- 数据中心基础设施标准化 IT 容量、冷却配置和机架/容器布局。
热风险评估
- 如果系统入口温度超过硬件设计规范,则热风险较高。
- 数据中心级评估依赖于整体气流分布,过道/行级别评估允许更广泛的规划。
过道/行级别评估
- 目标:确定可在数据大厅冷通道中安全支持的 IT 气流需求。
- CFD 建模考虑高端供应温度和风扇系列故障场景。
- 机架放置在过道远端以消除布局依赖性。
机架级别约束评估
- 高气流运行可能导致再循环或高背压,增加空气温度和热风险。
- 测试条件:高气流架(2300 CFM) vs 低气流架(700 CFM)。
- 观察到低气流架入口温度升高约 6°C。
- 服务器级别测试显示,背压增加导致气流进气减少,但未观察到服务器入口温度升高。
缓解策略
- 设计变更:
- 热通道宽度扩展:增加宽度可降低压差,但太宽难以实施。
- 放置角度百叶窗:进一步降低压差,组合方案最佳。
- 改进机架安全壳:减少再循环。
- 运营变更:
- 机架布局:大功率机架面向其他大功率机架。
- 最低气流要求:为低功率机架制定最低气流要求。
研究结论
- 热通道宽度扩展和机架后端百叶窗的组合是最佳解决方案,可减少 72% 的压差。
- OCP 硬件设计社区可助力机架设计变更,减轻高热风险和运营效率低下问题。
- 经验教训有助于超大规模数据中心运营商根据自身设施定义系统级约束。
贡献者
系统工程团队、硬件工程团队、战略工程与设计团队、设施和现场运营团队。