核心观点与关键数据
AI硬件加速器快速演进
AI、ML、DL和高性能计算(HPC)的快速发展催生了多样化的硬件加速器类型(GPU、FPGA、ASIC等),但不同模块在系统形式和实现上存在差异,需解决通用需求与差异化实现的问题。
OCP加速器模块(OAM)的提出
为提高互操作性和创新,OCP提出开放加速器基础设施(OAI),以OAM为核心模块,通过模块化设计实现横向扩展和异构计算。
OAM关键规格
- 外形规格:高密度连接器(12V/48V电源输入),支持单个或多个ASIC,TDP最高350W(12V)/700W(48V),102mm×165mm模块尺寸。
- 机械设计:3U风冷散热器参考设计,长M3.5安装螺钉,顶部手柄便于维修。
- 互连拓扑:支持平面网格、扩展2D网格、3D网格或环面,每个OAM最多7个x16链路,可扩展至完全连接(8个链路)。
分层基础规范
- 服务器分层:电源冷却、OAM、机械、UBB(互连拓扑)、电气、Tray、安全与管理、DC-SCI。
- 通用底板(UBB):支持平面或扩展网格,协议无关互连,可扩展至多UBB节点。
- 异构计算:支持xPU、FPGA、CPU、GPU、ASIC等混合模块,通过链式/流水线方式协同处理。
当前进展与呼吁
- OAM规范:第0.85版已发布,支持8×模块、8个x16链路(主机+模块间),DC-SCI支持全系统管理。
- 合作倡议:OCP Server Project下设立OAM子组,通过Wiki和邮件列表收集反馈,推动模块互操作性。
研究结论
OAM通过标准化模块化设计,可显著提升AI硬件系统的扩展性、互操作性和异构计算能力,为大规模数据中心提供灵活、高效的加速方案。