您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心委员会]:基于CXL方案的AI应用优化与研究 - 发现报告

基于CXL方案的AI应用优化与研究

AI智能总结
查看更多
基于CXL方案的AI应用优化与研究

版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队 项目经理:李宇涛三星(中国)半导体有限公司杨攀三星(中国)半导体有限公司工作组长:王峰中国电信股份有限公司研究院贡献专家:冯皓楠三星(中国)半导体有限公司张燕子三星(中国)半导体有限公司杨安喆三星(中国)半导体有限公司朴奎珉三星半导体有限公司金旻权三星半导体有限公司曺承杓三星半导体有限公司金俊三星半导体有限公司李相佑三星半导体有限公司劉永健三星半导体有限公司陈光上海三星半导体有限公司冯方上海三星半导体有限公司王超斌上海三星半导体有限公司任绍波上海三星半导体有限公司石新新上海三星半导体有限公司冯轶李军中国移动通信集团有限公司华瑞数鑫科技有限公司 赵继壮中国信息通信研究院邵剑峰中国信息通信研究院 前言 CXL(ComputeExpressLink)作为一种面向数据中心的高速互连技术标准,正在为AI应用的算力及存储瓶颈提供突破性解决方案。该技术基于PCIExpress5.0物理层构建,为AI计算提供高性能,高可靠性的数据传输。在AI训练与推理场景中,CXL技术能够显著降低跨设备数据传输延迟,通过统一内存池化管理解决GPU/TPU集群中的内存碎片问题,并为分布式模型训练提供高效的缓存一致性机制。 当前,随着生成式AI、大语言模型等前沿技术的爆发式发展,AI应用对存储资源的需求呈现出指数级增长。以三星CMM-D、海力士CXLDRAM等为代表的CXL设备,正在成为AI数据中心构建高带宽、低延迟互连架构的关键组件。然而,AI场景下CXL技术的软件生态建设仍面临重大挑战:现有研究多聚焦于通用协议验证,针对AI工作负载特性优化的训练框架适配仍处于探索阶段。特别是大模型训练过程中涉及的内存密集型计算、跨节点数据同步等场景,亟需构建完整的AI-CXL软硬件协同优化体系。 本白皮书将系统梳理CXL技术在AI领域的典型应用方案,涵盖以下核心研究方向。通过实际案例分析与性能基准测试,本文旨在为AI开发者、系统架构师提供可落地的CXL应用指南,助力构建下一代AI数据中心的高效互连生态。 鉴于编者水平与时间限制,文中难免存在疏漏或不足,恳请读者 不 吝 指 正 。 如 对 内 容 有 任 何 建 议 或 疑 问 , 欢 迎 通 过 yutao.li@samsung.com与我们联系。 目录 一.引言..........................................................................................................1 (一)研究目的和范围...............................................................................1(二)缩写和术语.......................................................................................2(三)参考文献...........................................................................................4 (一)CXL协议概述..................................................................................5(二)CXLDRAM概述..............................................................................8 三.应用场景背景介绍及瓶颈分析............................................................11 (一)MoE背景及瓶颈分析.....................................................................11(二)LLM背景及瓶颈分析....................................................................16(三)GNN背景及瓶颈分析....................................................................21四.基于CXL设备的应用解决方案..........................................................29(一)CMM-DMoE方案介绍.................................................................29(二)CMM-DLLM方案介绍................................................................32(三)CMM-DGNN方案介绍.................................................................40五.基于CXL设备方案的性能验证..........................................................45(一)CMM-DMoE方案性能验证.........................................................45(二)CMM-DLLM方案性能验证.........................................................47(三)CMM-DGNN方案性能验证.........................................................50六.总结与展望............................................................................................55(一)研究总结.........................................................................................55(二)研究展望.........................................................................................55七.附录..........................................................................................................1 图目录 图1CXL协议三种模式结构示意图................................................................7图2三星CMM-D产品图................................................................................9图3MoE架构图..............................................................................................12图4DeepSeekMoE架构图..............................................................................14图5Transformer解码架构..............................................................................17图6大语言模型推理流程..............................................................................18图7不同序列长度下KV缓存大小..............................................................20图8KV缓存传输的瓶颈................................................................................20图9基于采样的GNN训练示意图...............................................................26图10基于采样的GNN训练示意图.............................................................27图11SSD中Feature检索的性能...................................................................28图12CMM-DMoE方案架构.........................................................................30图13CMM-DMoE流程图.............................................................................32图14CPU/CXL到GPU互连。在不同访问大小下的延迟和带宽测量....34图15GPU到CPU/CXL互连。在不同访问大小下的延迟和带宽测量.....34图16多层KV缓存系统的整体架构............................................................35图17CMM-D和DRAM之间的预取............................................................37图18更大的预取窗口....................................................................................37图19存储缓存的重叠....................................................................................38图20CXL内存可以作为锁页内存池............................................................39图21存储缓存的重叠....................................................................................39图22KV缓存预取对比..................................................................................40图23基于CMM-D的GNN训练示意....................