您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心标准推进委员会]:AI 超节点内存池化技术白皮书 - 发现报告

AI 超节点内存池化技术白皮书

AI智能总结
查看更多
AI 超节点内存池化技术白皮书

版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队 项目经理:王军良中国电信研究院工作组长:何泽坤深圳市腾讯计算机系统有限公司贡献专家:林显成中国电信研究院武宇亭中国电信研究院朱元瑞中国电信研究院刘荣凯中国电信研究院夏寅贲深圳市腾讯计算机系统有限公司郭诚深圳市腾讯计算机系统有限公司王建国上海燧原科技股份有限公司周永财上海燧原科技股份有限公司吕涛深圳云豹智能有限公司崔秀梅深圳云豹智能有限公司王少鹏中国信息通信研究院孙聪中国信息通信研究院 前言 当前,生成式人工智能浪潮正深刻改变着全球的计算格局。在大模型训练与推理需求持续高涨的背景下,以AI超节点为代表的新型算力形态正迅速崛起,成为支撑智能时代的重要基础设施。随着模型规模不断扩大、数据复杂性持续上升,AI工作负载对存储与内存系统提出了前所未有的挑战。尤其在追求“以存换算”的方向上,传统分散、静态的内存架构已难以支撑AI大规模并行计算对效率、弹性和资源协同的严苛要求。 在这一背景下,AI超节点内存池化技术应运而生,成为打破“内存墙”的关键路径。通过对HBM、DDR、SSD等多层级存储资源的统一编址、集中调度与智能分层管理,内存池化技术不仅有效解决了异构资源分布不均、利用率低下等问题,更为大模型训练、大模型推理等典型场景提供了灵活、高效、可扩展的内存解决方案。在Scale-Up与Scale-Out双重网络技术的支撑下,AI系统得以实现跨节点内存共享,进而打通GPU与CPU之间的资源壁垒,最大化释放算力潜能。 然而,AI超节点内存池化的实现并非易事。底层互联技术的带宽与延迟瓶颈、存储语义不一致、开发接口复杂、资源调度策略不完善等问题,如同一道道技术屏障,阻碍着池化体系的真正落地与广泛部署。如何构建统一的寻址空间?如何实现异构设备之间的内存一致性?如何提升池化资源的调度智能与跨域弹性?这些问题亟 待解决,亟需产业界与学术界携手共建共创。 本白皮书汇聚了AI基础设施领域众多专家的研究成果,系统梳理了AI超节点内存池化的关键技术路径、典型应用场景与行业实践经 验 。 从 多 层 级 存 储 结 构 与 网 络 互 联 方 式 的 深 入 剖 析 , 到Zero-Offload、MoonCake、LMCache等行业实践分析;从统一编址与智能调度等关键技术的工程落地,到面向未来的Chiplet互联与缓存一致性C2C协议的前沿探索,白皮书力求为读者提供一份全面、深入、可实践的技术参考。 AI超节点内存池化不仅是面向当前AI模型需求的现实解法,更是构建下一代智能算力系统的重要基石。未来,随着CXL、DPU、UCIe等技术的不断演进,以及统一共享内存池体系的日益成熟,AI计算将不再受限于本地显存或静态配置,而转向真正的资源弹性、动态协同与系统智能。展望未来,AI超节点内存池化技术将在推动AI基础设施范式转变中扮演更加关键的角色。 本白皮书的发布,标志着AI内存系统进入了“池化+智能”时代的起点。我们期待它能为推动关键技术突破、促进产业标准形成、加快技术落地提供有力支撑,共同构建一个面向未来、可持续演进的算力新生态。 目录 一、AI超节点内存池化技术背景..............................................................................1 (一)内存池化技术的场景需求........................................................................1(二)AI超节点内存池资源组成.......................................................................3(三)AI超节点内存池化技术的定义和目标...................................................5二、内存池化架构与关键技术...................................................................................7(一)内存池化技术架构....................................................................................7(二)内存池化关键技术....................................................................................8三、内存池化行业实践分析.....................................................................................25(一)ZeroOffload技术方案............................................................................25(二)MoonCake技术方案................................................................................26(三)LMCache技术方案.................................................................................26(四)Dynamo技术方案....................................................................................27(五)3FS技术方案...........................................................................................28(六)实践总结..................................................................................................29四、未来发展趋势.....................................................................................................30(一)超节点主机级:基于跨级存储的资源调度优化方向..........................30(二)超节点芯片级:基于Chiplet设计思路的芯片设计探索方向.............31五、结论与展望.......................................................................................................34 图目录 图1不同场景的算力与内存扩展需求.....................................................................2图2AI超节点内存池的逻辑架构.............................................................................5图3内存池化技术架构.............................................................................................8图4基于UVM统一空间以及地址访问方式..........................................................9图5分层存储结构...................................................................................................11图6智能分层关键技术...........................................................................................12图7UALink的统一编址管理..................................................................................15图8内存碎片整理和释放.......................................................................................18图9Zero-Offload在训练场景中的实现..................................................................25图10MoonCake推理实例以及池化实现架构.......................................................26图11LMCache推理设备和存储组件....................................................................27图12NVIDIADynamo系统架构............................................................................28 表目录 表1AI超节点内存池的各级存储特性..................................4表2不同传输对应的访问实现.......................................10表3内存分配算法类型.............................................16 一、AI超节点内存池化技术背景 (一)内存池化技术的场景需求 在AI超节点架构中,内存池化技术不仅是提升存储效率的手段,更是支撑大规模模型训练与推理稳定运行的基础能力。当前的AI基础设施普遍采用高度分层化与异构化的存储体系,包括片上L1/L2Cache、高带宽显存(HBM)、DDR主存、PCIe/CXL扩展内存以及本地NVMe/SSD等。模型在训练与推理过程中,数据需在多层存储之间频繁搬移,而任何环节的延迟与带宽瓶颈都将直接制约整体计算效率与系统吞吐能力。现有架构目前面临的主要挑战如下: (1)存储访问通常需要开发者手动管理数据传输路径,例如在多GPU训练场景中,模型参数和激活值需要显式地从HBM迁移到CPUDRAM再到SSD,这类操作调用频繁、管理繁琐,不仅增加代码复杂度,还容易引发内存溢出、数据一致性失效等问题,显著增加系统出错概率。 (2)在CPU主存(DDR)与GPU显存(HBM)之间,由于带宽差异显著且缺乏统一内存语义的底层直连协议,数据往往需要经过中转,导致延迟放大、链路带宽浪费以及吞吐率下降,这已成为制约AI训练与推理性能的关键瓶颈。 内存池化技术的引入,从底层打破了这种割裂状态。它通过建立统一寻址空间与统一内存语义,并结合NVLink、CXL、UALink等高速互联技术与RDMA、GPUDire