您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为]:迈向智能世界白皮书2024:数据通信网络加速AI,AI改变网络 - 发现报告

迈向智能世界白皮书2024:数据通信网络加速AI,AI改变网络

信息技术2024-12-01-华为肯***
AI智能总结
查看更多
迈向智能世界白皮书2024:数据通信网络加速AI,AI改变网络

目录 02 01 AI改变网络 网络加速AI AI为网络注入新的创新生命力 智能化生产力蓄势待发,AI基础设施持续夯实 趋势3:数字孪生和AI融合发展,网络加速迈向L4高阶自动驾驶 趋势1:智算集群步入超十万卡时代 场景-1 AI Agent与RAG/小模型协同,提升领域问答和决策表现场景-2网络变更Agent精准仿真和验证,配置错误不入网场景-3网络故障Agent智能巡检和恢复,静默故障不沉默 场景-1超大单体集群:呼唤新一代算内网络场景-2跨DC协同训练:长距无损联算网络,助力分布式算力聚池成海 趋势4:网络安全进入AI对抗时代 趋势2:弹性无损入算网络建设提速,使能智算云服务商业变现 场景-1通过轻量级图AI检测模型,应对勒索变种难防护难题场景-2通过自学习AI模型,实现加密攻击高效检测场景-3通过大小模型协同,实现安全事件降噪和智能辅助处置 场景-1存算拉远协同训练,驱动入算网络走向长距无损场景-2海量样本“极速达”需求凸显,弹性入算网络成为建设重点 总结:智算网络和智算算力协同建设,使能企业随需用智 总结:三层智能架构,加速网安一体的网络智能化发展 行动建议 行动建议 智能化生产力蓄势待发,AI基础设施持续夯实 •大模型训练持续提速,智能化生产力蓄势待发。大模型应用走深向实,已经从2C现象级应用走向2B通用应用,正在走向场景化2B应用。场景化2B应用是企业的核心生产场景,因此,大模型快速迭代能力非常关键,以Tesla为例,需要将自动驾驶训练过去一个月的工作量缩短到一周内完成,实现2~3周一次OTA,满足安全和竞争力需要。可以预见的是,千行万业智能化过程中不断涌现的新需求,将驱动大模型训练时长缩短至天级甚至小时级。 •AI基础设施投资加码,算力服务成为新热点。智能算力投资持续提速,以中国为例,预计2027年智能算力规模达到1117.4EFLOPS,2022-2027年复合增长率达33.9%,同期通用算力规模年复合增长率为16.6%。中国三大T等均已发布相关战略,将智算云服务(算力服务)作为建设重点。 •网络和算力协同建设,为商业闭环夯实基础。在智算云服务中,算力是关键,算网是基础。例如,中国移动通过建设“4+N+31+X”多级智算中心和九州算力网络,同时通过百川并网接入第三方算力作为补充,实现“网络无所不达,算力无所不在,智能无所不及”。 趋势一:智算集群步入超十万卡时代 •集群规模从万卡快速跃升到十万卡级:受大模型的“涌现”效应影响,大模型参数持续增长,其增长速度已经超越摩尔定律(单卡算力提升速度),导致集群规模在持续增长,目前已经进入十万卡时代。 ✓Meta在2024年初公布了2个24576块Nvidia H100集群,用于下一代生成式AI模型的训练; ✓2024年7月,埃隆·马斯克(Elon Musk)宣布,xAI团队已开始在孟菲斯超级集群上进行新版聊天机器人GROK 3训练,该集群配备了10万张H100。 ✓字节跳动搭建12288卡Ampere架构训练集群,研发MegaScale生产系统用于训练大语言模型。 ✓科大讯飞2023年建成首个支持大模型训练的超万卡集群算力平台“飞星一号”。 ✓2024年2月4日“深圳市智慧城市算力统筹调度平台”打造10万卡“最强算力”集群(河套-西丽湖-光明科学城)。 ✓润泽(廊坊)国际信息港B区新型智算中心13万卡已启动建设,预计25年底交付。 1.1-超大单体集群:高质量算内网络成为释放算力效率的关键要素 •网络是决定集群大模型训练效率的关键:AI训练的通信模式,与传统的通信模式差异较大,不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最大可达50%,模型参数越多,集群规模越大,数据同步耗时越长,网络的通信效率对模型训练效率影响越重,尤其十万卡级大模型需要更高质量的网络。 •高质量的网络,需要无阻塞、低时延,满足十万卡级高线性度的算力利用率,大规模AI场景下海量的参数分布于多个服务器的多个GPU之上,需要用到多大十万个GPU来训练数十TB级甚至更大的数据,大量GPU之间的通信容易出现由于网络负载分担不均或者时延过大导致算力闲置,算法线性度下降甚至出现“饱和”现象。 •高质量的网络,需要长稳、健壮,支撑十万卡级大集群训练的高可靠,大模型训练是一个复杂的系统工程,系统稳定运行十分重要,而网络基础设施是长稳训练的关键。某个千亿大模型总训练时长65天,由于故障引起的重启多达50多次,训练时长只有33天。在十万卡级集群中,由于规模和复杂度急剧上升,这类故障风险也更加凸显,并且故障的恢复时间长,导致系统整理可用性低于60%。 关键能力-1:超大规模组网,800GE超高速互联 •需要新的组网架构支持十万卡级组网:两层框-盒组网最大支持3.2万卡(美团),三层(盒-盒-盒)组网可支持50万卡,该架构未来可支持百万卡。面向未来的超百万卡时代,如果继续增加网络层次,会带来跳数多时延大、网络复杂有效负载低、互联链路过多成本高等一系列挑战,业界在探索基于DragonFly、Torus等新架构互联方案。 •800GE步入规模商用阶段,构建超宽网络:随着400GE应用的普及,数据中心网络正朝着更高的速度发展——800GE。根据研究机构Dell‘OroGroup发布的《数据中心交换机市场五年期预测报告》显示,800GE交换端口的预计2025年将超过400GE。 两层CLOS架构3.2万卡@200GE接入 基于DragonFly的星织网络架构 三层CLOS架构 50~100万卡@400GE/800GE接入 关键能力-2:网络级负载均衡,零拥塞超高吞吐释放算力 •提网络吞吐是AI训练效率的关键:当前头部互联网企业、大型AI研发企业、国内运营商等领先的公司都在通过自建或使用万卡集群,并积极规划面向未来的50万卡算力集群。AI人工智能计算场景的流量特征是流量少、单流带宽大。网络经常因为负载不均导致有效吞吐低,一般在50%左右。当网络架构从二层变成三层,网络路径数就呈现几何倍数的增长,负载不均更严重,整网吞吐甚至只有20%(五十万卡时的实验室仿真数据)。 •网络级负载分担提升网络吞吐:为了提升网络吞吐量,业界主流玩家的优化思路基本一致,针对大模型AI训练的需求,对端、网和协议进行深度协同以及适配,实现整网负载均衡和90%以上的高吞吐性能,实现通信效率提升。目前华为通过网络级负载均衡(NSLB)技术,已经实现在两层CLOS架构下实现网络有效吞吐达98%(如美团等);面向三层组网,升级版智能负载均衡算法已实现进一步突破和适配。 三层网络架构,网络路径数从450万激增到300亿,负载均衡难度剧增 FlowMatrix算法五维建模,复杂度MN→M*N,全网链路秒级调整 关键能力-3:与光模块协同打造长稳可靠网络,提升算力可用率 •光模块是保证训练稳定性的关键一环:AI训练中成千上万张算卡协同完成一项训练任务,一旦出现单点故障,整个训练任务都会被迫中断。根据业界统计,集群稳定运行后光模块故障率在千分之6.3.其中由光模块污损带来的训练中断占比30%,光模块单通道故障占比70%。 •面对光模块稳定性这一难题,业界主要探索方向有两方面: ✓训前主动巡检,提前识别污损/松动光模块:光模块污染和松动在光模块问题中占比约30%,网络通过与AI光模块的协同,激发光模块主动测量链路质量,发现光污问题和松动隐患,主动消除网络故障潜在风险,杜绝带病上岗。 ✓训中光模块通道级故障隔离,保障AI网络稳定高效。由于智算数据中心光模块运营温度比通算高20摄氏度,智算中心中光模块失效概率和影响远大于通算数据中心。分析发现,智算光模块内激光器件失效是光模块失效是主要原因(单通道故障占光模块故障问题>90% ),也是困扰业界的难题,业界玩家在积极寻找解决方案,华为通过自适应通道关断技术,结合计算侧和交换机侧实现端网协同,实现光模块故障通道的隔离,保证网络通信系统仍然稳定运行。 1.2-跨DC协同训练:长距无损联算网络,实现分布式算力聚池成海 •单智算中心规模受限,多DC协同训练需求涌现:一方面,受机房环境、用电等因素影响,单智算中心规模受限,跨DC协同训练成为算力聚合的有效方式。例如,Google Gemini Ultra在模型训练中已经使用了基于Cloud TPU v4跨DC协同训练;微软OpenAI实验室发布最新消息,预计2025年发布的GPT-6由于供电问题必须跨Region训练;另一方面,算力市场主要玩家运营商有大量的存量CO/DC等资源,其期望借助智算建设的机遇、最大化存量CO/DC资源的价值。中国移动、广东电信等都在积极探索相关方案,以应对未来超大模型训练需求,提升算力服务的竞争力。 协同训练模式2:枢纽间算力协同,满足超大模型训练需要(中国移动) 微软预计GPT-6受限电网能力,只能通过多区域算力中心协同训练 GPT-5十万卡规模,功耗380MW,年用电量33亿度≈1/10香港全年用电量 联算网络关键能力:零丢包、高利用率、高效应对高突发 •跨DC协同训练,需要DCI网络“0”丢包:与传统业务相比,AI训练数据对网络丢包的敏感度显著提升。即使是0.1%的微小丢包率,也可能导致训练效率降低50%,严重影响协同计算的效果,如何在广域网中实现无损传输,确保协同计算的高效运行,打造“0丢包”的高运力智能广域网成为关键。•跨DC协同训练,需要解决网络利用率低:AI训练的流量特点是“业务流数量少、突发大”,也就是业界所称的大象流,研究表明,万卡级。大象流会导致网络中的传统基于五元组的负载分担方法失效,链路负载不均衡,整网利用率极低。•跨DC协同训练,需要解决流量突发问题:在万卡集群中,GPU单卡200Gbps互联,参数同步时,理论流量速率在51.2Tbps,但由于业务高突发、高并发,实际瞬时并发可高达1600Tbps,现阶段,DC间互联带宽不可能满足,需要在网络设备上完成整形收敛。•领先企业已经在落地跨DC协同训练。北京电信积极探索智算拉远方案,已在瀛海、武清、永丰三个AI训练DC测试百公里协同训练可行,和单DC相比,线性度下降小于5%;经仿真评估,跨千公里距离时延过大,仅可支持数据并行跨地域的方式进行训练,50Tbps+DCI互联带宽可满足万亿/十万亿稀疏模型的要求。 趋势二:高运力入算网络建设提速,使能智算云服务商业变现 •高运力入算网络,“算力”设施商业变现:算力基础设施建好之后,摆在眼前的另一个问题是如何“服务海量客户用好算力”,实现智算中心的商业正循环。在中国,当前已经完成建设的智算数据中心中,可对外提供智算云服务的占比不足25%,缺少一张高质量的网络将客户、最终用户、AI应用和智算中心高效联接到一起,为数据要素的高效转运提供超高运力,是一个重要因素。这张高运力的入算网络,主要服务于行业客户行业大模型训练和海量最终用户的模型推理两种场景。 •建设高质量入算网络成为产业新热点。中国移动建设并发布九州算力互联网,发布弹性专线等新业务;中国电信升级云网战略,上海电信积极探索“样本数据快递”等新场景的技术创新和商业导入;中国联通则以CUBE-Net3.0作为未来5-10年网络转型的顶层架构设计,意在打造“连接+计算+智能”的融合服务 1-存算拉远协同训练,驱动入算网络走向无损 •敏感数据不出园区,存算拉远训练。部分企业或行业客户由于要保障数据安全性,要求从研究机构到算力中心传输过程中数据不在园区外落盘。 •存算拉远训练需要新型网络能力,一方面,训练业务对丢包十分敏感、入算网络需要按需支持无损,另一方面,网络具备端到端高有效吞吐能力。 调研2:GD政数局 调研1:上海证券交易所数据中心 券商数据存储在私域。在训练频次高、训练数据变化大、增量多的情况下,需要通过加密联接打通存和算、实现样本拉远训练 SG智算中心部署政务类大模型,ZS租用智算中心算力进行大模型训练,因为涉及敏感信息,用户希望将