行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

王瑞雪：大模型时代，智算网络性能评测挑战

信息技术 2024-03-20 中国移动研究院，

中国移动研究院正在面临智算网络技术评测的挑战。随着AI基础设施的不断布局，智算中心和网络基础设施成为AI算力的重要组成部分。智算中心由GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施组成。GPU市场规模的扩大和交换芯片更新换代周期的缩短，使得对网络设备的需求激增。网络成为AI算力的瓶颈，以网强算成为提升大模型训练效率的关键。智算中心网络用于连接CPU、GPU、内存等池化异构算力资源，贯穿数据计算、存储全流程，网络性能增强对提升智算中心整体算力水平具有关键意义。智算中心网络流量模型具有单个流量数量多、带宽小、突发异步和累积流量波峰、波谷效应明显、具有周期性等特点。

中国移动研究院2024.03 目录 01智算中心网络技术概况 02全调度以太网技术创新 03智算网络技术评测面临的挑战算和网是新型智算中心关键基础设施智算中心是以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施的综合体，智能算力需求激增推动计算与网络基础设施建设不断布局算和网基础设施倍受关注随着算力需求的快速增长，AI基础设施建设不断布局，算与网成为AI算力重要基础设施的两大核心 AI基础设施 GPU芯片为核心的算力基础以太网交换芯片为核心的网络基础 •算力需求激增，GPU是重中之重•AI芯片市场规模不断扩大，较2022年，2026年AI芯片规模提升4倍•GPU技术快速发展，Nvidia即将推出H200，H200的算力是H100的2倍左右 •GPU市场规模提升，对网络设备需求激增，交换芯片的更新换代周期缩短至1.5年来源：Frost&Sullivan，中商产业研究院... 网络成为AI算力瓶颈，以网强算对我国更加重要 AI大模型以算力集群分布式训练为基础，带来大量节点间通信消耗，组网规模、网络性能和可靠性决定集群有效算力，网络成为AI算力“瓶颈”，以网强算成为提升大模型训练效率的关键集群有效算力∝｛GPU单卡算力*总卡数*线性加速比*有效运行时｝智算中心网络概况智算中心网络用于连接CPU、GPU、内存等池化异构算力资源，贯穿数据计算、存储全流程，网络性能增强对提升智算中心整体算力水平具有关键意义；与通用云计算网络不同，AI参数面网络要求极高，是业界关注焦点智算中心通算中心 AI训练依赖典型集合通信原语 ALLReduce：在主节点上进行Reduce（如sum、min）操作，通过Garther分发给所有节点，所有节点得到相同数据，一个典型的32卡HDallreduce过程： üStep1-3：通过总线完成机内8卡通信 üStep4-5：通过网络完成4台服务器之间的通信 Allreduce：可以通过算法转化为对分通信特征：ü点到点通信，对分流量，无多打一ü网络同轨通信通信数据量Double，无多打一通算中心与智算中心流量模型差异性通用算力以CPU芯片为主，业务种类多流量小，业务间相互独立；智能算力以GPU、Al芯片等人工智能芯片为主，通信关系固定，流数量少流量大，分布式训练带来大量节点的同步突发，木桶效应明显 •单个流量：数量多、带宽小、突发异步•累积流量：抖动幅度较小，具有随机性 •单个流量：数量少、带宽大、突发同步•累积流量：波峰、波谷效应明显，具有周期性业界主流通算中心与智算中心均采用spine-leaf架构，但两者端口速率、组网方式、网络协议均存在差异性通算中心组网方案智算中心组网方案 •端口速率方面：服务器端口10GE/25GE并存，汇聚层从40GE向100GE演进•服务器网卡数量：一机双卡•设备关系：交换机设备之间部署MC-LAG•组网形态：Leaf为盒式设备，Spine多为框式设备 •端口速率方面：服务器端口200GE/400GE，汇聚层400GE/800GE•服务器网卡数量：一机八卡•设备关系：交换机设备之间独立•组网形态：Leaf为盒式设备，Spine多为盒式设备 01智算中心网络技术概况 02全调度以太网技术创新 03智算网络技术评测面临的挑战当前智算中心网络技术问题和挑战现有以太网协议基于流的负载分担及拥塞控制机制，在AI模型训练场景存在天然缺陷，导致网络有效带宽和时延受限问题一：基于流的负载均衡存在哈希极化问题问题二：被动拥塞控制导致GPU闲置 •问题：传统以太网源端发流不关注网络情况及目的端接受能力，直接向网络“推”流，产生多打一流量，导致网络产生拥塞或丢包，导致GPU空闲，算力损失 •问题：传统流级负载均衡极易造成多个流哈希到同一条链路，造成部分链路拥塞，部分空闲，网络利用率低，无法应对突发的网络流量有效通信带宽≠网卡/交换机组网物理带宽任务同步产生“多打一”流量，拥塞导致时延、抖动增加 InfiniBand和RoCE存在各自问题，基于新型以太网构建开放、标准的生态，成为智算中心网络技术演进方向 GSE链路层三大核心技术 GSE创新以太网转发机制，基于三大核心机制转变，实现高精度负载均衡、网络层原生无损及低延迟从盲发+被动控制到感知+主动控制从“流”分发到“报文”分发从“局部”决策到“全局”调度从被动拥塞控制，到基于“授权请求和响应机制”的主动流控，最大限度避免网络拥塞产生将业务流拆分到不同“报文容器”转发，提供逐“报文容器”负载均衡机制，提升带宽利用率基于算网协同的全局视野转发调度机制，实现集中式管理运维、分布式控制转发未来：逐报文容器转发，链路负载均衡，全局调度，避免拥塞全调度以太网（GSE）技术体系框架 GSE技术体系最大限度兼容以太网生态，从四层（物理层、链路层、网络层、传输层）+一体（管理和运维体系）等层级优化和增强，GSE体系架构最大限度兼容以太网生态，创新基于报文容器（PKTC）的转发及调度机制，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AI产业发展全调度以太网（GSE）部署场景 GSE协议可根据网络设备和网卡能力，将方案各组件功能在网络组件中重新分工，支持多种组网场景，为后续网络建设和设备选型提供灵活的方案选择 •GSP和GSF角色均由网络设备担任，执行GSE头解封装、多路径分发、端到端授权应答及报文排序•传统RoCE网卡，对网卡无额外要求•适用于华为昇腾GPU生态系统 •源GSP、GSF由网络设备担任，执行、多路径分发等功能•网卡承担部分GSP角色，负责GSE头解封装、授权应答和报文排序•适用于英伟达及其他国产GPU生态系统 GSE部署优势，更好匹配国产芯片能力采用逐包分发技术后，对leaf上行带宽需求降低，同等芯片容量下，leaf上行口的端口速率越小，组网规模越大，负载分担链路更加散列，包均衡能力更优，更适配国产芯片大规模组网需求 •组网规模：1024台GPU服务器，8K张GPU卡•包均衡能力：每Leaf上行有64条负载分担链路 •组网规模：256台GPU服务器，2K张GPU卡•包均衡能力：每Leaf上行有16条负载分担链路同等芯片容量下，leaf上行端口速率为100G的组网规模较400G提升4倍，包均衡能力提升4倍全调度以太网（GSE）推进计划进展概况中国移动携手中国信通院，联合国内外三十余家主流互联网，设备商、芯片商、高校院所联合发起GSE推进计划，推动智算中心网络技术创新、标准完善和产业应用，打造高速无损、开放兼容的新型智算中心网络技术体系对标UEC，建议在CCSA成立国家层面的全调度以太网（GSE）推进委员会，工作范畴建议如下： 15•物理层：低时延Phy、PhySEC、故障快速检测、高速光接口、光交换等•链路层：基于报文分发和重组机制、调度技术、链路级安全及容错等•网络层：新型组网拓扑、新型组播/任播协议等;•传输层：改进的RDMA、新型拥塞控制等•管理和运维体系：网络可视化、可调试能力、多维自动化能力目录 01智算中心网络技术概况 02全调度以太网技术创新 03智算网络技术评测面临的挑战智算网络技术评测面临的挑战智算中心具有明显的通信特征，且AI技术的快速发展推动算、网软硬件技术的快速迭代升级，制定普适统一的智算中心网络性能评测体系仍面临诸多挑战 •模拟GPU实际的计算、周期性通信，测试结果是否可以客观反映实际结果•仪表是否能支持千卡级、甚至万卡即模拟能力 •测试仪端口、规模是否能匹配网络的演进速度 •能够反映的新指标（有效带宽、长尾时延等）模型种类定制化 •端网协同是趋势，需同时兼做网卡和网络•私有拥塞控制协议、传输协议等优化，是否具备灵活的可编程能力和定制化功能 •基本的通信原语&通信原语不同的实现方式•支持大模型的种类、测试工具迭代速度是否能匹配•不同模型对网络的性能评价标准能否归一感谢聆听

点击免费查看完整报告

王瑞雪：大模型时代，智算网络性能评测挑战

你可能感兴趣

王瑞雪：全调度以太网，构建新型智算中心网络底座

评测驱动代码大模型 “码力”提升 - 王一男

驱动未来：面向大模型的智算网络

金融业 AI 大模型智算网络研究报告

万卡级超大规模智算集群网络运维挑战及实战

征服游戏挑战：测试和验证如何提高网络性能

王一博：大模型时代下的Al for Science

大模型时代：智能设计的机遇和挑战

2023大模型时代：智能设计的机遇和挑战

大模型时代下的安全挑战及应对