Penguin Computing 的 OCP 技术助力美国能源部 (DOE) 实验室将 16 台超级计算机成功部署在 Top500 排行榜上。这些 OCP 架构的超级计算机自 2016 年以来部署于美国国家实验室,作为核武库管理的重要工具,替代传统爆炸性测试方法。
核心技术与案例:
- OCP 技术优势: OCP 技术通过标准化设计,显著降低了 HPC 系统成本,从 1995 年的 1000 万美元/太拉浮点运算 (FLOP) 降至 5000 美元/太拉 FLOP,同时提升了计算能力和能效。CTS-1 项目是 OCP 技术应用的典范,其 30,000 个 Broadwell/Skylake 双处理器节点展示了 OCP 在 CPU 架构、加速器和互连方面的灵活性。
- Tundra 架构: Penguin Computing 的 Tundra™ 极端扩展设计是 OCP 技术的代表性成果。该架构具有以下特点:
- 高密度与可扩展性: 每个机架可支持 102 个节点,采用高速低延迟互连,节点间同步延迟小于微秒。
- 模块化设计: 支持 CPU、GPU 加速服务器,可选风冷或液冷散热,并通过云平台 (POD) 可访问。
- 电力与存储配置: 提供 9 个 3300W 矩阵电源槽,支持多种电压选项和冗余配置,搭配多种存储方案。
- 关键系统案例:
- CTS-1 项目: 30,000 个节点集群,采用 OCP 设计,显著降低 HPC 成本并提升性能。
- LLNL “Quartz”: 原始 14SU 扩展至 16SU,采用 Xeon E5-2695v4 处理器。
- LANL “Grizzly”: 10SU 配置,包含 CPU 和 GPU 子系统。
- SNL “Serrano”: 6SU 配置,支持多种扩展模块。
- AI 集群“Corona”: 383 太拉 FLOPS,采用 AMD EPYC™ 处理器和 Radeon Instinct™ GPU,通过 Mellanox HDR InfiniBand 互联。
技术细节:
- 计算节点:
- Relion 1930e: 1U OCP 架构,双 Intel Xeon E5-2600v4 处理器,支持 1TB DDR4 内存和 Asetek Direct-to-Chip 冷却。
- Relion XO1114GT: 1U GPU 节点,双 Intel Xeon 处理器,支持 4 个 Nvidia Tesla Volta GPU,灵活 PCIe 拓扑。
- 电力系统: Vertiv HPC 电源机架提供 3 对直流母线,支持 N+1 冗余配置,电压范围 -10°C 至 +45°C。
- 存储选项: 每节点标配 2.5" SATA SSD,支持未来 GPU 升级。
结论:
OCP 技术通过标准化、模块化和灵活性,显著提升了 HPC 系统的性能与成本效益,成为 DOE 实验室超级计算机部署的核心选择。Tundra 架构的推出进一步推动了高性能计算向 AI 和 GPU 计算的转型,未来 OCP 产品将在更多领域实现商业化应用。