您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为云]:华为云:2024年EMS弹性内存存储技术白皮书 - 发现报告

华为云:2024年EMS弹性内存存储技术白皮书

2024-06-21-华为云陈***
AI智能总结
查看更多
华为云:2024年EMS弹性内存存储技术白皮书

Elastic MemoryService Whitepaper 文档版本01发布日期2024-06-21 版权所有©华为云计算技术有限公司2024。保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 商标声明 和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意 您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 华为云计算技术有限公司 地址:贵州省贵安新区黔中大道交兴功路华为云数据中心邮编:550029网址:https://www.huaweicloud.com/ 目录 2.1AI技术的发展......................................................................................................................................................................42.2AI场景中的存力痛点.........................................................................................................................................................52.2.1持久化存储性能不足......................................................................................................................................................52.2.2DRAM利用率低..............................................................................................................................................................62.2.3HBM内存墙......................................................................................................................................................................62.3EMS的构建动机.................................................................................................................................................................8 3.1软件架构............................................................................................................................................................................103.2内存解耦池化....................................................................................................................................................................113.2.1内存池融合部署架构....................................................................................................................................................113.2.2内存池分离部署架构....................................................................................................................................................123.2.3分级存储.........................................................................................................................................................................123.2.4数据冗余.........................................................................................................................................................................123.3面向AI推理的加速技术.................................................................................................................................................133.3.1以存代算.........................................................................................................................................................................143.3.2显存扩展.........................................................................................................................................................................153.3.3计算卸载.........................................................................................................................................................................163.4面向AI训练的加速技术.................................................................................................................................................163.4.1并行训练拓扑感知的检查点保存...............................................................................................................................173.4.2基于NPU通信的检查点恢复.....................................................................................................................................183.4.3选择性检查点持久化....................................................................................................................................................183.5面向推荐模型的加速技术...............................................................................................................................................193.5.1Embedding池化存储......................................................................................................................................................203.5.2Embedding均衡打散......................................................................................................................................................203.5.3增量检查点.....................................................................................................................................................................21 基于大模型的生成式AI技术的重大突破推动了人工智能的应用范围从传统的分类任务扩展至广泛的生成任务,引发了AI应用的爆发性增长,并引领IT产业迈入全新的“AI时代”。随着AI产业的迅猛发展,云计算基础设施也在从以通用算力为核心向以智能算力为核心转变。在这种新型云计算基础设施中,数据的“算力”和“存力”是相辅相成的。尽管云数据中心在智能算力方面取得了显著进步,但是在存力方面的不足已成为制约效率的关键瓶颈。存力问题主 要表现在三个方面:持久化 存储性能不足、DRAM利用率低、以及HBM内存墙问题。 为解决这些存力问题,华为云推出了全球首创的弹性内存存储服务EMS(Elastic Memory Service),一种以内存为主要存储介质的云基础设施服务。通过EMS,华为云将传统的“计算-存储”分离的两层云架构升级为“计算-内存-存储”分离的三层云架构,其中新增的“内存层”即为EMS。这种新型的三层云架构能有效解决上述存力痛点,从而具有高资源弹性、高资源利用率和高性能等优势。具