行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI 超节点内存池化技术白皮书

信息技术 2025-09-12 开放数据中心标准推进委员会 @·*&&

一、AI超节点内存池化技术背景

场景需求：随着AI模型规模和复杂性的提升，传统内存架构难以满足高效、弹性、资源协同的需求。内存池化技术通过统一编址、集中调度和智能分层管理，解决异构资源利用率低下的问题，为AI工作负载提供灵活高效的内存解决方案。
资源组成： AI超节点内存池包含CPUDRAM、GPUSRAM以及HBM、DPUDDR、FPGA缓存等异构存储单元，并支持多节点间的Scale-up网络传输。
定义和目标： AI超节点内存池化是指计算单元对分布在不同层级、不同节点的存储单元进行统一管理与使用，通过构建逻辑上的全局内存视图，实现跨CPU、GPU及其他计算加速器的内存资源进行统一寻址、统一调度与透明访问，从而显著提升AI超节点的算力释放效率。

二、内存池化架构与关键技术

统一API接口：通过UVM统一寻址技术和统一API接口，实现异构存储之上的软件接口一致性，支持内存语义访问和数据拷贝两种访问类型。
智能分层引擎：通过数据访问追踪、数据热度分层和数据迁移操作，将数据根据热度信息指定到对应的存储层级，实现冷热数据的有效分离和管理。
内存池化管理：包括统一地址管理、拓扑感知与资源分配、内存复用管理、内存碎片化管理和内存隔离等，实现异构资源的有效整合和灵活调度。
硬件资源互联：包括Scale-up互联、Scale-out互联和Host-to-Device互联等技术，实现GPU之间、CPU与GPU之间以及主机与设备之间的高速、低延迟通信，为内存池化提供性能基础。

三、内存池化行业实践分析

ZeroOffload：通过显存、内存、SSD分层调度方案，减少GPU显存占用，支持超大参数量模型训练。
MoonCake：利用分布式系统优化手段，将CPU、DRAM、SSD和RDMA资源分组组成分布式KVCache存储池，提升推理性能。
LMCache：通过调用MoonCakeStore、infiniStore和Redis等分布式存储组件，实现KVCache的池化存储，减少GPU计算开销。
Dynamo：为跨异构和分布式环境的推理任务处理键值（KV）缓存块的内存分配、管理和远程共享，提供统一的memoryAPI。
3FS：为客户端提供池化的共享存储层，聚合数千个存储节点的硬盘及网络带宽，支持数据集加载、检查点、KVCache卸载等。

四、未来发展趋势

超节点主机级：基于跨级存储的资源调度优化，通过资源拓扑感知、数据分层与迁移策略智能化、调度与执行解耦等能力，提高系统整体稳定性与任务执行效率。
超节点芯片级：基于Chiplet设计思路的芯片设计探索，通过缓存一致性C2C协议，构建跨Chiplet的统一共享内存池，为CPU与GPU提供高效协作的解决方案。

五、结论与展望

AI超节点内存池化技术是构建下一代智能算力系统的重要基石，通过统一编址、智能调度和生态共建，实现“内存随处可取、异构存储无感知、成本持续优化”的普惠计算愿景，推动多层级、多节点内存资源的深度整合与优化，加速迈向“内存无界、算力无限”的全面智能时代。

版权声明 ODCC（开放数据中心委员会）发布的各项成果，受《著作权法》保护，编制单位共同享有著作权。转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的，应注明来源：“开放数据中心委员会ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为，ODCC及有关单位将追究其法律责任，感谢各单位的配合与支持。编写团队项目经理：王军良中国电信研究院工作组长:何泽坤深圳市腾讯计算机系统有限公司贡献专家:林显成中国电信研究院武宇亭中国电信研究院朱元瑞中国电信研究院刘荣凯中国电信研究院夏寅贲深圳市腾讯计算机系统有限公司郭诚深圳市腾讯计算机系统有限公司王建国上海燧原科技股份有限公司周永财上海燧原科技股份有限公司吕涛深圳云豹智能有限公司崔秀梅深圳云豹智能有限公司王少鹏中国信息通信研究院孙聪中国信息通信研究院前言当前，生成式人工智能浪潮正深刻改变着全球的计算格局。在大模型训练与推理需求持续高涨的背景下，以AI超节点为代表的新型算力形态正迅速崛起，成为支撑智能时代的重要基础设施。随着模型规模不断扩大、数据复杂性持续上升，AI工作负载对存储与内存系统提出了前所未有的挑战。尤其在追求“以存换算”的方向上，传统分散、静态的内存架构已难以支撑AI大规模并行计算对效率、弹性和资源协同的严苛要求。在这一背景下，AI超节点内存池化技术应运而生，成为打破“内存墙”的关键路径。通过对HBM、DDR、SSD等多层级存储资源的统一编址、集中调度与智能分层管理，内存池化技术不仅有效解决了异构资源分布不均、利用率低下等问题，更为大模型训练、大模型推理等典型场景提供了灵活、高效、可扩展的内存解决方案。在Scale-Up与Scale-Out双重网络技术的支撑下，AI系统得以实现跨节点内存共享，进而打通GPU与CPU之间的资源壁垒，最大化释放算力潜能。然而，AI超节点内存池化的实现并非易事。底层互联技术的带宽与延迟瓶颈、存储语义不一致、开发接口复杂、资源调度策略不完善等问题，如同一道道技术屏障，阻碍着池化体系的真正落地与广泛部署。如何构建统一的寻址空间？如何实现异构设备之间的内存一致性？如何提升池化资源的调度智能与跨域弹性？这些问题亟待解决，亟需产业界与学术界携手共建共创。本白皮书汇聚了AI基础设施领域众多专家的研究成果，系统梳理了AI超节点内存池化的关键技术路径、典型应用场景与行业实践经验。从多层级存储结构与网络互联方式的深入剖析，到Zero-Offload、MoonCake、LMCache等行业实践分析；从统一编址与智能调度等关键技术的工程落地，到面向未来的Chiplet互联与缓存一致性C2C协议的前沿探索，白皮书力求为读者提供一份全面、深入、可实践的技术参考。 AI超节点内存池化不仅是面向当前AI模型需求的现实解法，更是构建下一代智能算力系统的重要基石。未来，随着CXL、DPU、UCIe等技术的不断演进，以及统一共享内存池体系的日益成熟，AI计算将不再受限于本地显存或静态配置，而转向真正的资源弹性、动态协同与系统智能。展望未来，AI超节点内存池化技术将在推动AI基础设施范式转变中扮演更加关键的角色。本白皮书的发布，标志着AI内存系统进入了“池化+智能”时代的起点。我们期待它能为推动关键技术突破、促进产业标准形成、加快技术落地提供有力支撑，共同构建一个面向未来、可持续演进的算力新生态。目录一、AI超节点内存池化技术背景..............................................................................1 （一）内存池化技术的场景需求........................................................................1（二）AI超节点内存池资源组成.......................................................................3（三）AI超节点内存池化技术的定义和目标...................................................5二、内存池化架构与关键技术...................................................................................7（一）内存池化技术架构....................................................................................7（二）内存池化关键技术....................................................................................8三、内存池化行业实践分析.....................................................................................25（一）ZeroOffload技术方案............................................................................25（二）MoonCake技术方案................................................................................26（三）LMCache技术方案.................................................................................26（四）Dynamo技术方案....................................................................................27（五）3FS技术方案...........................................................................................28（六）实践总结..................................................................................................29四、未来发展趋势.....................................................................................................30（一）超节点主机级：基于跨级存储的资源调度优化方向..........................30（二）超节点芯片级：基于Chiplet设计思路的芯片设计探索方向.............31五、结论与展望.......................................................................................................34 图目录图1不同场景的算力与内存扩展需求.....................................................................2图2AI超节点内存池的逻辑架构.............................................................................5图3内存池化技术架构.............................................................................................8图4基于UVM统一空间以及地址访问方式..........................................................9图5分层存储结构...................................................................................................11图6智能分层关键技术...........................................................................................12图7UALink的统一编址管理..................................................................................15图8内存碎片整理和释放.......................................................................................18图9Zero-Offload在训练场景中的实现..................................................................25图10MoonCake推理实例以及池化实现架构.......................................................26图11LMCache推理设备和存储组件....................................................................27图12NVIDIADynamo系统架构............................................................................28 表目录表1AI超节点内存池的各级存储特性..................................4表2不同传输对应的访问实现.......................................10表3内存分配算法类型.............................................16 一、AI超节点内存池化技术背景（一）内存池化技术的场景需求在AI超节点架构中，内存池化技术不仅是提升存储效率的手段，更是支撑大规模模型训练与推理稳定运行的基础能力。当前的AI基础设施普遍采用高度分层化与异构化的存储体系，包括片上L1/L2Cache、高带宽显存（HBM）、DDR主存、PCIe/CXL扩展内存以及本地NVMe/SSD等。模型在训练与推理过程中，数据需在多层存储之间频繁搬移，而任何环节的延迟与带宽瓶颈都将直接制约整体计算效率与系统吞吐能力。现有架构目前面临的主要挑战如下：（1）存储访问通常需要开发者手动管理数据传输路径，例如在多GPU训练场景中，模型参数和激活值需要显式地从HBM迁移到CPUDRAM再到SSD，这类操作调用频繁、管理繁琐，不仅增加代码复杂度，还容易引发内存溢出、数据一致性失效等问题，显著增加系统出错概率。（2）在CPU主存（DDR）与GPU显存（HBM）之间，由于带宽差异显著且缺乏统一内存语义的底层直连协议，数据往往需要经过中转，导致延迟放大、链路带宽浪费以及吞吐率下降，这已成为制约AI训练与推理性能的关键瓶颈。内存池化技术的引入，从底层打破了这种割裂状态。它通过建立统一寻址空间与统一内存语义，并结合NVLink、CXL、UALink等高速互联技术与RDMA、GPUDire

点击免费查看完整报告

AI 超节点内存池化技术白皮书

一、AI超节点内存池化技术背景

二、内存池化架构与关键技术

三、内存池化行业实践分析

四、未来发展趋势

五、结论与展望

你可能感兴趣

OrionX AI算力资源池化解决方案技术白皮书

AI大模型跨域训练池化调度技术体系白皮书

2023新型智算中心算力池化技术白皮书

2023NICC新型智算中心算力池化技术白皮书

中兴通讯超节点技术白皮书

Atlas 900 A3 SuperPoD 超节点安全技术白皮书

Atlas 800T A3 超节点技术白皮书

2026开放解构超节点（ODS）系统架构技术白皮书（1.0版）

Atlas 800T A3 超节点安全技术白皮书

【电报解读】华为云6月即将发布AI基础设施新品！机构称超节点技术正成为国产算力的重要新增量，这家公司适配于各传输节点上传输速率为224g的相关产品正逐步推出，并已成为华为-20260415

AI 超节点内存池化技术白皮书

你可能感兴趣

OrionX AI算力资源池化解决方案技术白皮书

AI大模型跨域训练池化调度技术体系白皮书

2023新型智算中心算力池化技术白皮书

2023NICC新型智算中心算力池化技术白皮书

中兴通讯超节点技术白皮书

Atlas 900 A3 SuperPoD 超节点 安全技术白皮书

Atlas 800T A3 超节点 技术白皮书

2026开放解构超节点（ODS）系统架构技术白皮书（1.0版）

Atlas 800T A3 超节点 安全技术白皮书

【电报解读】华为云6月即将发布AI基础设施新品！机构称超节点技术正成为国产算力的重要新增量，这家公司适配于各传输节点上传输速率为224g的相关产品正逐步推出，并已成为华为-20260415

Atlas 900 A3 SuperPoD 超节点安全技术白皮书

Atlas 800T A3 超节点技术白皮书

Atlas 800T A3 超节点安全技术白皮书