行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

李锴：面向新型智算中心的技术探索

信息技术 2023-09-13 中国移动研究院 Franky！

技术探索报告概览

技术背景与挑战

计算领域发展趋势：算力密度快速增长，而I/O（输入输出）增长速度相对滞后，尤其是内存通道和PCIe带宽。计算核心数量激增，与之相对的是内存需求的增加和算存比的拉大，这提出了对总线协议和访问效率的改进需求。
产业发展：深度学习领域迎来了大规模模型时代，万亿参数级别的模型已成为新常态。从GPT-1到GPT-3，参数量提升了100倍，数据量则提升了1000倍。

面临的挑战与机遇

内存压力与计算效率：随着模型参数量的激增，对内存带宽和容量的需求也随之增加，同时，通信带宽和延迟成为限制整体计算效率的关键因素。
架构优化需求：为了适应万亿参数模型的需求，通信协议和拓扑结构需要进行优化升级，以提高通信带宽和减少延迟。

CXL互联技术探索

CXL协议简介：CXL（Compute Express Link）是一种开放的行业标准互连协议，旨在提高CPU与加速器、内存和智能I/O设备之间的通信效率。
发展历程：自2019年发布以来，CXL经历了多个版本的迭代，增加了如Memory Pooling、单Switch互联、支持PCIe6.0、引入结构管理等功能，以解决异构设备的访存/缓存一致性问题。
CXL协议结构：由CXL.io、CXL.cache和CXL.mem三种子协议组成，分别负责发现、交互和内存访问，提供全面的通信解决方案。
应用场景：CXL适用于CPU与GPU、智能网卡等设备的互联，以及内存带宽和容量的扩展，旨在提高计算系统的整体性能和效率。

拓扑优化与架构探索

拓扑优化：推荐采用交换拓扑（Switch）来实现GPU之间的高速互联，以支持百张卡级别的通信连接。
S²架构：构建基于交换拓扑的“S²（Super Server）”架构，作为未来AI基础设施的演进方向，实现更高效率的数据读写和更灵活的拓扑连接。
统一内存池：通过构建CPU和GPU间的统一内存池，减少数据搬运，简化模型训练过程，提高训练效率。

产业推进

CXL技术准入：联合产业界制定严格的CXL技术准入验证要求，以确保CXL产品的高质量和市场适应性，推动技术的广泛应用。
测试规范：提供详细的测试规范，覆盖CXL环境、物理测试、协议层测试、性能测试等多个方面，确保CXL技术的一致性和互操作性。

结论

面向新型智算中心的技术探索聚焦于解决算力与I/O之间的不平衡、内存压力与计算效率的挑战，通过CXL互联技术的深入研究与应用，旨在构建高性能、低延迟的计算基础设施，支持万亿参数级别的大规模模型训练与推理，同时推动产业界的合作，共同推进CXL技术的发展和应用。

目录一：技术背景二：CXL互联三：技术探索一：技术背景趋势挑战：计算领域中，算力密度的增长速度超过I/O增长每计算Core拥有DRAM通道、PCIe带宽呈不断下降趋势计算Cores数增长迅速，但DDR和PCIe等I/O跟不上计算密度的增长面对内存需求增加与算存比拉大之间的矛盾，对总线协议和访问效率提出改进需求，推动整体架构改进产业发展：深度学习迎来大模型时代，万亿参数模型将成新常态参数模型快速扩大，拥有万亿参数的模型将成为标准配置，为基础设施带来挑战 •在过去的12年里（2010-2022年），ML训练算力增长了100亿倍；•从2012年到2018年，ML训练所需算力3.4个月翻一番； •GPT-11.17亿参数，GPT-215亿参数，GPT-31750亿参数，经历了数量级的跳变；•从GPT2到ChatGPT，参数规模增长了100倍，数据规模增长率1000倍；为满足万亿参数的模型需求，通信协议和拓扑结构需优化，对通信带宽和延迟提出新要求模型背景：数据并行对GPU显存和互联存在高性能要求 •显存压力大：每块GPU上存储一份完整模型，造成冗余，模型参数量增加导致显存的压力增大•互联压力大：Server需要与每个Worker进行梯度传输，带宽成为整个系统计算效率的限制因素为减轻显存及互联压力，需实施更有效的多显存优化策略，且提升Server与Worker之间的数据传输效率架构背景：张量并行参数从千亿迈向万亿，服务器从8卡扩展到百卡 •千亿和万亿模型包含大量的参数，参数越多，模型越大，但也需要更多计算资源和通信带宽•模型的结构和并行方式、精度和稀疏性、更新策略和频率对计算资源和通信带宽有较大影响万亿模型推动更复杂的结构、更高的精度、更频繁的更新，需要更高速、更可靠、更灵活的服务器互联架构协议层级：计算总线的通信协议众多，私有和标准协议大量存在 GPU卡间互联的衡量指标包括通信带宽、时延和缓存一致性从CPU、内存、磁盘、网卡、加速卡等关键部件之间存在多种通信协议，速率和能力差异巨大 •UPI•XGMI•CMN•CCIX•AMBA•CAPI•PCIe•CXL•xxLink•RDMA•…… 图片来源：Parallel Distributed Systems Lab •思考1：为实现内存、显存I/O增强，如何拓展内存带宽和容量？•思考2：为快速增加的参数规模，如何优化总线级的通信协议和拓扑结构？•思考3：在万亿参数量的新常态下，如何突破单机8卡的互联的局限性？•思考4：在互联协议中，涵盖私有化和标准化两种路径，后续该如何选择？ CXL（Compute Express Link）概念提出并发展 •定义：CXL协议是一种开放的行业标准互连，在CPU与加速器、内存和智能I/O等设备之间提供高带宽、内存一致性的连接•场景：包括AI、ML、云基础设施、网络、边缘计算等对异构和内存系统相关的场景，在CPU、GPU、FPGA、智能网卡和其他加速器中部署标量、矢量、矩阵和空间架构的多样化组合 CXL总线在协议层面具备实现缓存一致性能力 CXL协议是包括CXL.io、CXL.cache、CXL.mem三种子协议组成，通过提供多种子协议，CXL技术可以更好地满足不同领域和应用的需求 •CXL.io–基于PCIe发现、寄存器访问、中断、初始化、I/O虚拟化、DMA•CXL.cache–定义设备和主机之间的交互，支持访问主机内存，协调一致性管理•CXL.mem–内存访问协议，主机管理设备连接的内存 CXL总线可支撑多种应用场景 •Type 1：用于CPU和SmartNic等加速器互联，以提高处理器的转发效率性能 •Type 2：用于CPU、GPU互联，以提高多处理器对内存的使用，提升多处理器协同效率•Type 3：用于内存带宽和容量扩展部分协议的技术参数对比互联协议一方面应考虑数据传输需求，另一方面也应考虑计算节点访问内存/显存的需求三：技术探索重点领域：中国移动重点打造NICC新型智算中心以高性能GPU/AI加速卡为核心，以高速互联智算集群为关键，形成集约化建设的E级超大规模算力基础设施，具备软硬件AI全栈环境，支撑AI大模型的高效训练和推理新型智算中心拓扑优化：高速互联应实现GPU P2P互联，交换拓扑是演进趋势面对训练万亿模型的趋势，需要进一步提升百张卡之间的通信连接，在互联拓扑和通信协议方面进行优化，卡间互联能力提升的推荐方案是向交换拓扑（Switch）演进架构探索：构建基于Switch拓扑结构的S²架构高速通信进一步扩展至百卡级别，卡间互联的最优解指向Switch拓扑，构建基于交换拓扑的“S²， Super Server，超级服务器”是未来AI基础设施的演进趋势为降低设计难度，建议统一高速互联协议，以实现百卡规模互联为设计目标，收敛技术路线，推动高速互联技术生态从能用到好用的跃变模式转变：基于CXL构建统一内存池传统CPU和GPU分立的存储架构，导致数据大量搬移，影响模型训练效率需要构建CPU和GPU间的统一内存池，减少数据搬运，简化编程开发，使模型训练更加高效基于CXL打造内存池化 HBM和DDR分立 •数据多次复制，延迟高，影响模型训练效率•AI模型开发复杂，需要手动管理数据搬移 •数据无需多次搬运，GPU可快速访问巨量共享内存产业推进：联合产业界共同制定CXL技术准入验证要求积极联合产业界，共同制定CXL技术准入验证要求，旨在推动CXL技术的发展和应用，确保符合标准的CXL产品能够高效地满足市场需求，促进整个行业的可持续发展中国移动、英特尔、新华三、浪潮电子信息、超聚变、联想、博通、三星、记忆科技、腾讯、中国信通院、工业富联、得一微、深圳忆联等单位共同订制 •目标：本测试规范旨在为CXL（Compute Express Link）协议的实现提供指导和支持。帮助各相关单位对CXL技术的一致性探索与实现，并提供一致性和互操作性的保证，以满足高性能计算系统的需求。•范围：本测试规范的范围涵盖了CXL协议的主要测试要求，包括CXL环境要求、CXL物理测试要求、CXL协议层测试与敖犬、CXL性能测试要求、CXL兼容性测试要求、CXL错误处理测试要求、以及为满足业务需求等方面。•设备：测试规范适用于各种类型的CXL实现，包括CXL内存扩展器、CXL加速器和CXL开发板等。•用途：本测试规范是为CXL实现的用户单位、芯片厂商、整机厂商、系统集成商等多单位联合提供的。期待与产业伙伴紧密合作，建立严格的技术验证标准，为CXL技术的广泛应用奠定坚实的基础更多关于中国移动算网信息，欢迎关注二维码获取

点击免费查看完整报告

李锴：面向新型智算中心的技术探索

技术探索报告概览

技术背景与挑战

面临的挑战与机遇

CXL互联技术探索

拓扑优化与架构探索

产业推进

结论

你可能感兴趣

面向新型智算中心的以太网弹性通道（FlexLane）技术白皮书

面向电源侧的新型储能发展路径探索

面向SRv6的SDWAN技术演进探索和实践

面向新型工业化的全无线工控技术白皮书

《面向新型工业化的5G内生确定技术白皮书》解读：5G内生确定赋能数智工厂

面向超万卡集群的新型智算技术白皮书

2025年面向城市的物联网新型基础设施技术体系和标准化研究报告

黄震宁：面向新型工业化的5G工业算网技术

面向新型电力系统的电热储协同调控技术

面向新型配电系统柔性互联和灵活互动的分布式智能电网技术体系