Zion 模块化系统架构概述
Zion 系统旨在支持 AI 工作负载,由 Meta 开发并应用于语音识别、内容理解、模式检测和翻译等 AI 应用场景。系统架构主要包括以下部分:
1. 锡安系统概述
- 服务器设计:双插槽模块化服务器,支持 2 个或 4 个插槽,配备 OCP NIC 和存储模块。
- 膨胀机盒:包含加速器模块和 8 个加速器搁板,支持高速通信。
- 应用场景:支持 AI 工作负载,如语音识别、内容理解等。
2. 天使着陆服务器
- 配置:多达 4 个插槽的英特尔 Cooperlake CPU,4x 100G OCP3.0 NIC,1.5 TB DDR4 RAM。
- 连接性:通过背板完全连接 UPI,确保高速数据传输。
3. 清溪服务器
- 扩展性:4x PCIe Gen4 交换机,8x 200G 网卡可扩展,16x E1. S / M.2 固态硬盘。
- 功能:支持高性能计算和存储需求。
4. 翡翠池服务器
- 加速器模块:8x 开放式加速器模块,支持 OAM 互连,实现加速器间高速通信。
- 应用:优化 AI 计算性能。
5. 灵活的配置
- 模块化设计:硬件可根据 AI 用例定制,支持多样化需求。
- 现场服务设计:
- 高故障率部件(FRUs)无需移除电缆即可访问。
- PCIe 线缆从板背面引出,绕至系统前方。
- 管理工具(OAMs)通过滑动导轨组件访问。
- CPU、DIMMs 和存储模块在前面板可访问的托架上。
6. BMC 概述
- 崩溃转储功能:
- CATERR/MSMI 触发器触发 SEL 记录。
- AL0 BMC 收集崩溃转储数据,包括 MC 银行和传感器数据。
- Flash dump 日志保存至 BMC 闪存,记录服务提取至数据库。
7. 呼吁采取行动