行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

华为云：2024年EMS弹性内存存储技术白皮书

2024-06-21 - 华为云陈宫泽凡

核心观点与关键数据

AI技术发展背景：基于大模型的生成式AI技术推动IT产业进入“AI时代”，云计算基础设施从通用算力转向智能算力，智能算力规模远超通用算力规模。预计到2026年，超过80%的企业将采用生成式AI模型，到2028年，75%的企业软件工程师将依赖AI编码助手。生成式AI有望为全球经济贡献约7万亿美元。
AI场景中的存力痛点：
- 持久化存储性能不足：大模型参数量激增（GPT-3约350GB，GPT-4约3.52TB），传统持久化存储（如OBS）访问带宽低（几十Gbps），导致模型读写延迟长达数小时，严重影响AI集群效率。AI推理和训练对模型参数的读写时延需求与当前持久化存储实际读写耗时存在2至4个数量级的差距。
- DRAM利用率低：AI服务器配备大量DRAM（如昇腾910配置1.5TB），但实际利用率低（GPU集群利用率低于25%-50%），主要因按最大需求预留导致资源闲置。例如，推荐模型训练时利用率接近100%，而大语言模型训练时低于35%。
- HBM内存墙：AI加速器（GPU/NPU/TPU）面临内存容量墙（大模型参数量增长240倍/两年，AI加速器内存容量仅翻倍/两年）和内存带宽墙（算力增长9万倍/20年，内存带宽仅提高30倍）。
EMS构建动机与架构：为解决存力痛点，华为云推出全球首创的弹性内存存储服务EMS，将云架构升级为“计算-内存-存储”三层架构。EMS软件架构包括领域专用服务SDK、分布式内存池和管理控制面，面向高易用性、高弹性扩展性和高可用性设计。
EMS关键技术：
- 内存解耦池化：
  - 融合部署：利用AI服务器内本地DRAM池化，提升服务器内和服务器间利用率，实现卡间高效数据共享，通过亲和感知调度确保高带宽访问。
  - 分离部署：使用独立内存服务器，通过高速内存总线实现内存池共享，提供最优的成本、均衡性、利用率和共享能力。
  - 分级存储：通过DRAM卸载解决HBM容量墙，进一步将数据卸载到SSD，形成多级分层卸载存储，通过AI训练和推理流程感知算法进行主动卸载和取回调度，平衡训推效率和成本。
  - 数据冗余：提供基于副本和纠删码的内存数据冗余，提升数据可用性。
- 面向AI推理的加速技术：
  - 以存代算：利用EMS内存池存储和复用多轮对话的KV缓存，避免重复计算，降低首字时延，提升吞吐量，降低推理成本。
  - 显存扩展：将HBM中的KV缓存、模型权重等数据卸载到EMS内存池，支持运行超出HBM容量的模型或增加批处理大小，提升推理吞吐率。
  - 计算卸载：将KV缓存数据和轻量级算子卸载到内存池，利用DRAM扩展HBM容量和带宽，提升AI推理性能和性价比。
- 面向AI训练的加速技术：
  - 并行训练拓扑感知的检查点保存：利用数据并行训练中的模型重复性，实现内存检查点的本地多副本存储，大幅提升检查点保存效率。
  - 基于NPU通信的检查点恢复：利用NPU卡间高速参数面通信恢复检查点，相比传统跨节点通信，效率大幅提升。
  - 选择性检查点持久化：允许用户指定或配置策略决定哪些检查点持久化，降低对持久化存储的压力，并采用双快照机制保证内存中始终有最新完整检查点。
- 面向推荐模型的加速技术：
  - Embedding池化存储：提供全量Embedding池化存储，结合本地缓存和EMS内存池，实现高效访问。
  - Embedding均衡打散：采用分片机制分散高达TB级别的Embedding数据，确保节点和线程负载均衡。
  - 增量检查点：基于写时复制（COW）原理，仅存储更新过的Embedding，节省存储空间并提高效率。
研究结论与应用前景：EMS通过内存解耦池化和多种加速技术，有效解决了AI场景中的存力痛点，提升了资源弹性、利用率和性能。EMS广泛应用于大语言模型、多模态模型、推荐模型等AI场景的推理和训练。未来，EMS将持续演进，扩展至在线事务处理（OLTP）数据库、混合事务/分析处理（HTAP）数据库、向量数据库、Redis缓存系统、大数据分析等通用计算场景。

Elastic MemoryService Whitepaper 文档版本01发布日期2024-06-21 版权所有©华为云计算技术有限公司2024。保留一切权利。非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标，由各自的所有人拥有。注意您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束，本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定，华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。由于产品版本升级或其他原因，本文档内容会不定期进行更新。除非另有约定，本文档仅作为使用指导，本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。华为云计算技术有限公司地址：贵州省贵安新区黔中大道交兴功路华为云数据中心邮编：550029网址：https://www.huaweicloud.com/ 目录 2.1AI技术的发展......................................................................................................................................................................42.2AI场景中的存力痛点.........................................................................................................................................................52.2.1持久化存储性能不足......................................................................................................................................................52.2.2DRAM利用率低..............................................................................................................................................................62.2.3HBM内存墙......................................................................................................................................................................62.3EMS的构建动机.................................................................................................................................................................8 3.1软件架构............................................................................................................................................................................103.2内存解耦池化....................................................................................................................................................................113.2.1内存池融合部署架构....................................................................................................................................................113.2.2内存池分离部署架构....................................................................................................................................................123.2.3分级存储.........................................................................................................................................................................123.2.4数据冗余.........................................................................................................................................................................123.3面向AI推理的加速技术.................................................................................................................................................133.3.1以存代算.........................................................................................................................................................................143.3.2显存扩展.........................................................................................................................................................................153.3.3计算卸载.........................................................................................................................................................................163.4面向AI训练的加速技术.................................................................................................................................................163.4.1并行训练拓扑感知的检查点保存...............................................................................................................................173.4.2基于NPU通信的检查点恢复.....................................................................................................................................183.4.3选择性检查点持久化....................................................................................................................................................183.5面向推荐模型的加速技术...............................................................................................................................................193.5.1Embedding池化存储......................................................................................................................................................203.5.2Embedding均衡打散......................................................................................................................................................203.5.3增量检查点.....................................................................................................................................................................21 基于大模型的生成式AI技术的重大突破推动了人工智能的应用范围从传统的分类任务扩展至广泛的生成任务，引发了AI应用的爆发性增长，并引领IT产业迈入全新的“AI时代”。随着AI产业的迅猛发展，云计算基础设施也在从以通用算力为核心向以智能算力为核心转变。在这种新型云计算基础设施中，数据的“算力”和“存力”是相辅相成的。尽管云数据中心在智能算力方面取得了显著进步，但是在存力方面的不足已成为制约效率的关键瓶颈。存力问题主要表现在三个方面：持久化存储性能不足、DRAM利用率低、以及HBM内存墙问题。为解决这些存力问题，华为云推出了全球首创的弹性内存存储服务EMS（Elastic Memory Service），一种以内存为主要存储介质的云基础设施服务。通过EMS，华为云将传统的“计算-存储”分离的两层云架构升级为“计算-内存-存储”分离的三层云架构，其中新增的“内存层”即为EMS。这种新型的三层云架构能有效解决上述存力痛点，从而具有高资源弹性、高资源利用率和高性能等优势。具

点击免费查看完整报告

华为云：2024年EMS弹性内存存储技术白皮书

核心观点与关键数据

你可能感兴趣

2023华为云管理网络解决方案技术白皮书

华为云AI视频技术白皮书

AI 超节点内存池化技术白皮书

2024年华为云可信白皮书

数据存储加密技术白皮书V1.1

鲲鹏 BoostKit 分布式存储使能套件技术白皮书

深度报告：EMS龙头再出发，存储封测打开成长空间

2024年金融数据中心存储顶层架构白皮书

【浙商计算机】易华录：蓝光存储+华为云内核，政府数据存储运营龙头核心推

TMT周报：相变内存或将颠覆存储行业

华为云：2024年EMS弹性内存存储技术白皮书

你可能感兴趣

2023华为云管理网络解决方案技术白皮书

华为云AI视频技术白皮书

AI 超节点内存池化技术白皮书

2024年华为云可信白皮书

数据存储加密技术白皮书V1.1

鲲鹏 BoostKit 分布式存储使能套件技术白皮书

深度报告：EMS龙头再出发，存储封测打开成长空间

2024年金融数据中心存储顶层架构白皮书

【浙商计算机】易华录：蓝光存储+华为云内核，政府数据存储运营龙头 核心推

TMT周报：相变内存 或将颠覆存储行业

【浙商计算机】易华录：蓝光存储+华为云内核，政府数据存储运营龙头核心推

TMT周报：相变内存或将颠覆存储行业