Open Accelerator Infrastructure Overview
OAI 项目概述
- 成立时间与范围:2019年3月成立于 OCP 服务器项目下,专注于管理和硬件安全,旨在建立基础设施以促进符合 OAM 规范的加速器产品快速采用。
- 目标:开启加速器生产,确保与现有/传统操作系统和框架兼容,涵盖物理和逻辑方面(电气、机械、热和适用性)。
OAM 时间线
- 关键版本发布:
- OAM v1.0 (2018Q2), UBB v0.4 (2018Q2)
- OAM v1.1 (Q2/Q3 2022), UBB v1.0 (Q2/Q3 2022)
- OAM v1.5 (2020Q4), UBB v1.5 (2020Q4)
- OAM v2.0 (2021Q4), UBB v2.0 (2021Q4)
- 技术演进:
- 56G PAM4 → 112G PAM4 → 112G PAM4 → 28G NRZ → 25G NRZ
- PCIe G4 → PCIe G5/G6
- 功耗:100W → 700W (450W 版本) → 700W (450W 版本)
- 冷却方式:空气冷却 → 空气/液体冷却
OAI 组工作流
- 高速 SerDes:下一代高速研究,如 112G PAM4、PCIe Gen5/6。
- OAI 系统:系统拓扑、HIB/机箱规范、系统管理和安全要求。
- Cooling:UBB/OAM 规范修订,建立液冷解决方案的规格、框架、标准化和最佳实践,包括模块级到系统级的液冷、与空气冷却卡的互换性及服务器机架集成。
- OAM 诊断工具:开发用于 OAM 管理的与供应商无关的通用实用程序。
- Power:重点关注 OAI 的功率输送,包括功率要求、设计规范、参考设计等。
行业采用
- OAM 当前状态:OAM Spec v1.5 将于 2021 年底发布,PVC OAM 英特尔等供应商正在合作实现基于 OAM 的解决方案。
OAI/OAM 系统
- 组件:OAM、UBB、Tray。
- 时间节点:多个关键版本和组件的发布时间点集中在 2021 年 11 月。
议程讲习班
- 主题与时间安排:
- 液体冷却:驱动器、时间表和工业融合案例,冷却液温度。
- OAI 工作流更新:系统设计、高速服务和电源。
- OAI 冷却和 OAM 工具的闪电谈话。
- 面板讨论:开放和可互操作的 AI 训练集群。
- Zion 模块化平台体系结构概述。
- 英特尔 Ponte Vecchio 计算加速器 OAM 产品和系统。
- 视频内容:按需/OAI 系统管理的改进,OAM 电力输送设计挑战与建议。
呼吁采取行动