AI 工作负载的快速扩展对存储网络提出了挑战,需要从软件到硬件的垂直集成。Meta 的 AI 系统中,内容理解、排名和推荐等任务驱动了数据中心到边缘的扩展。
问题陈述
AI 工作负载扩展速度通常快于技术扩展,需要更多垂直集成。计算、内存带宽、内存容量和模型规模的比例对硬件设计至关重要。推荐模型(如 DLRM)是 AI HW 平台的主要驱动因素,其中大部分内存容量由稀疏特征(嵌入表)贡献。密集模型在低容量时需要高带宽,稀疏模型在高带宽时需要高容量。
DLRM 要求
- 推理具有严格的延迟要求,即使在低带宽端。
- 相当部分的容量需要高带宽加速器内存。
- 推理在低带宽下具有更大的容量部分。
系统含义
一层内存超越 HBM 和 DRAM 可以是杠杆化的,特别是用于推理,权衡性能与容量。但仍然需要 HBM 和 DRAM 的容量和带宽支持。
适应 e2e 系统
更简单的硬件、避免向外扩展、促进多租户,性能/瓦特和性能/$是重要指标。实际用例中的不同场景需要考虑。
示例实现
已发布工作主要集中在最低的内存层(使用 NVMe SSD),包括:
- SSD 支持的软件定义内存
- BW 需求所需的 SCM SSD
- 访问粒度较小的高 IO 速率
- 主内存中缓存应用程序级数据
- 快速 IO (io_uring)
- DRAM 和 SSD 之间的放置策略
- 提高整体性能
影响场景
- 使用更简单的硬件节省电力:部署 a143 GB 启用 SDM 功能的模型,使用更简单的硬件,可达到与复杂模型相同的延迟,节省 20% 的电力。
- 通过避免向外扩展来节省电力:将 SDM 与 SCM SSD 一起用于 150 GB 型号,可防止向外扩展,节省 5% 的电力,并允许更简单的服务范例。
高级别内存层缓存
包括 HBMDRAM 加载/存储接口缓存行读取/写入,可扩展异构标准接口 BW 内存,AI 用例 CXL 已附加容量记忆 NAND SSD。
总结
AI 模型的扩展速度比底层内存技术快,主机 DRAM 以外的其他内存层(容量内存)可以提供帮助,权衡性能与容量。CXL 提供了启用此新内存层的可行选项。