内存成本和功耗持续增加,内存占系统功耗和成本的百分比不断上升。核心计数增加推动内存需求增长,带宽和容量需求也随之提升。
机器学习模型容量在5年内增长约50倍,现有内存层次结构难以满足需求。Compute Express Link (CXL) 作为开放的行业标准,提供高带宽、低延迟的处理器互连方案,支持PCI Express,宽度为x4, x8, x16。
CXL内存层需求包括:
- 内存层:提供高带宽、低延迟的内存扩展,支持缓存行读取/写入,可扩展、异构,标准接口。
- DIMM:用例包括暖页、页面迁移,带宽接近DDR4内存,延迟类似NUMA,功耗约为DDR5的90%,容量可使用标准RDIMM进行缩放。
- CXLMEM:带宽为DDR5内存的5-10%,延迟数百纳秒,功耗约为DDR5的一半,容量256GB-1TB,采用可热插拔形式因素。
CXL内存演进分为:
- Host 2 Host直接连接小池CXL内存。
- 机架式水池CXL内存,通过CXL控制器连接多个CXL内存膨胀机。
研究结论:
- 系统级别需考虑SW集成,多个用例需要多个CXL内存层。
- 一种方案不适合所有场景,行业合作至关重要。