您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国电信]:分布式智算中心无损网络技术白皮书 - 发现报告

分布式智算中心无损网络技术白皮书

信息技术2024-08-26-中国电信陈***
AI智能总结
查看更多
分布式智算中心无损网络技术白皮书

智算网络系列技术白皮书 版权声明 本白皮书版权属于中国电信股份有限公司研究院及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:中国电信股份有限公司研究院等”。否则将违反中国有关知识产权的相关法律和法规,对此中国电信股份有限公司研究院有权追究侵权者的相关法律责任。 编写说明 主要编写单位: 中国电信股份有限公司研究院、中国电信股份有限公司北京分公司 主要编写人员(排序不分先后): 傅志仁、雷波、顾鹏、叶平、王江龙、李聪、解云鹏、王学聪、李云鹤、冀思伟、刘宇旸、吴楠、张越、马小婷、周舸帆、唐静、王轶、张勇 高级顾问(排序不分先后): 张文强(中国电信集团公司)罗锐(中国电信北京分公司)史凡(中国电信集团公司)胡芳龙(中国电信集团公司) 撰写团队联系方式: 中国电信股份有限公司研究院解云鹏010-50902166xieyp6@chinatelecom.cn 前言 2024年3月,政府工作报告中首次提出开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。这意味国家将加强顶层设计,加快形成以人工智能为引擎的新质生产力。随着这一行动的深入推进,人工智能将在推动产业升级、促进新质生产力加快形成等方面发挥重要作用。 随着人工智能的浪潮来袭,以大模型为代表的AI方案逐步深入千行百业,算力需求日益攀升,智算基础设施的重要性进一步凸显。然而,在智算基础设施建设过程中尚面临组网、通信、能耗、成本等多重挑战,行业要“以网强算”,通过无处不在的网络资源,补齐单点算力规模不足的差距,夯实智算业务发展基础。 本白皮书聚焦AI大模型下智算业务的典型需求和特征,对分布式智算中心无损网络方案、核心技术展开深入研究,并积极推动分布式智算中心互联现网验证。我们希望通过白皮书的研究与分析,得到更多同行的参与和讨论,同时也期盼与众多合作伙伴一起携手并进,汇聚行业力量,共同打造大规模、高带宽、高性能以及智能化的AI大模型分布式智算中心网络。 目录 1.分布式智算中心无损网络场景及需求..................................................................41.1.智算业务的典型需求和特征........................................................................................41.2.分布式智算中心无损网络场景....................................................................................41.3.分布式智算中心无损网络挑战....................................................................................61.4.业界研究概况................................................................................................................72.分布式智算中心无损网络解决方案设计..............................................................92.1.方案设计原则................................................................................................................92.2.分布式智算中心无损网络总体架构..........................................................................102.3.方案技术特征..............................................................................................................123.分布式智算中心无损网络核心技术....................................................................143.1.异构网络集合通信优化技术......................................................................................143.2.网络级负载均衡技术..................................................................................................163.3.精准流控技术..............................................................................................................173.4.光模块通道抗损技术..................................................................................................203.5.流可视化,全流丢包检测技术..................................................................................203.6.大带宽传输技术..........................................................................................................213.7.波长级动态拆建技术..................................................................................................223.8.高性能WSON技术....................................................................................................233.9.告警压缩,根因识别技术..........................................................................................244.典型实践................................................................................................................264.1.背景与需求..................................................................................................................264.2.试验概述......................................................................................................................264.3.试验结论......................................................................................................................285.总结和展望............................................................................................................28附录A:术语与缩略语..............................................................................................30附录B:参考文献......................................................................................................31 1分布式智算中心无损网络场景及需求 1.1智算业务的典型需求和特征 从Transformer问世至2023年ChatGPT爆火,人们逐渐意识到随着模型参数规模增加,模型训练的效果越来越好,且两者之间符合Scalinglaw规律。当模型的参数规模超过数百亿后,AI大模型的语言理解能力、逻辑推理能力以及问题分析能力迅速提升。例如,拥有1.8万亿参数的GPT-4在复杂问题的处理能力方面远超GPT-3,谷歌的Gemini大模型性能也超越其早期版本。但提升模型参数的规模和性能后,AI大模型训练对于网络的需求也会发生巨大变化。 在大模型训练场景下,随着参数规模从亿级提升到万亿级别,算力需求呈现“爆发式”增长。据统计,2012~2022年模型算力需求每年增长4倍,而2023年后模型的算力需求以每年10倍的速度增长。这意味着训练超大AI模型需要数千/万卡GPU组成的集群高速互联。此外,机内GPU通信和机外集合通信将产生大量通信需求。例如,千亿级参数的大模型并行训练所产生的集合通信数据将达到数百GB量级。若要在极短时间内完成参数交换,将对GPU与GPU间、GPU与网卡间、网卡与网卡间的超高带宽互联提出较高要求。网络拥塞和丢包也会严重影响GPU计算效率,据实验统计,0.1%的网络丢包率就会带来50%的算力损失,因此提升通信性能可有效释放智能算力。 AI大模型训练/推理需要智算网络具备超大规模、超高带宽、超低时延、超高可靠等关键特征。如何设计高效的集群组网方案,提升GPU有效计算时间占比(GPU计算时间/整体训练时间),对于AI集群训练效率的提升至关重要。 1.2分布式智算中心无损网络场景 超大规模GPU集群成为大模型训练的必要条件,而算力需求的指数级增长对AI基础设施带来极大挑战。在构建万卡甚至十万卡集群时,由于机房空间/电力不足、机房散热等问题,智算中心单点算力规模建设受限。 为破解智算基础设施供给难题,中国电信践行“以网强算”的技术路线,即利用无处不在的网络资源弥补小规模智能计算的差距,再结合集中式的算力调度 策略,提升整网智算利用率。目前,“以网强算”已成为国际格局和产业环境下中国最具优势的发力点。 “以网强算”将多个智算中心互联成一个大型虚拟智算集群,通过分布式智算中心无损网络(也称RDMA拉远),实现区域内多智算中心协同计算,满足更大规模的算力需求。目前,分布式智算中心无损网络主要适用于两类场景:算-算拉远和存-算拉远。 (1)算-算拉远场景 我国单点智算中心规模普遍偏小,规模为100-300PFLOPS的小型智算中心占比超70%,而规模超过1EFLOPS的大型智算中心仅占25%,且多由云提供商及大型企业自建,集中在京津冀、长三角和粤港澳。算-算拉远可以将区域内多个已经建成的智算中心的算力进行整合,从而无需建设超大规模集约型智算中心就能够训练更大的模型。 此外,单个智算节点往往会存在资源利用率不足、闲散算力资源浪费的问题。在算力使用过程中,租户算力诉求与