您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为&中国信通院]:星河AI网络白皮书 - 发现报告

星河AI网络白皮书

星河AI网络白皮书

Xinghe Network White Paper 编制说明 本白皮书在撰写过程中得到了多家单位的大力支持,在此特别感谢以下顾问专家,参编单位和参编人员。 顾问专家(排名不分先后) 华为数据通信产品线数据中心网络领域总裁:王武伟中国信息通信研究院云计算与大数据研究所所长:何宝宏 参编单位(排名不分先后) 华为技术有限公司、中国信息通信研究院云计算与大数据研究所 参编人员(排名不分先后) 何宝宏、郭亮、王少鹏、李建高、赵笑可、郑晓龙、温华峰、李经、闫孩、于浩 前言eW 进入数字经济时代以来,算力成为推动各行业数字化转型,赋能经济蓬勃发展的重要引擎,同时也成为衡量国家综合实力的重要指标之一。随着以ChatGPT、GPT4为代表的AI大模型的发布,智算需求快速爆发,并迅速掀起了新一轮人工智能技术的发展浪潮。 近年来,OpenAl的ChatGPT、DeepMind的AlphaGo、华为的盘古等规模达到数干亿参数的大模型,通过在海量数据上进行预训练,极大地推动了AI语言理解和多模态能力的进步。然而,训练如此复杂的模型需要投入极大的计算资源 随着ChatGPT等Al应用场景的快速增长,业界对更大规模的Al模型训练需求日益毁切。这对支撑基础训练的数据中心网络的性能提出了新的要求。我们需要提供极致的通信性能、计算能力和稳定性,以支撑万亿级甚至更高规模参数的模型训练。如何通过网络技术突破来满足训练任务的规模、效率需求,已成为一个非常关键的研究方向。 本白皮书旨在深入分析AI大模型训练对网络的新需求,探索网络技术发展新方向,为构建面向AI大模型的高性能训练网络提供参考。我们将从大模型训练的发展历程和业务需求角度出发,分析网络与其应用之间的差距,并探索如何通过技术创新优化网络,以便更好地服务于大模型训练。 本白皮书的版权归华为和中国信息通信研究院云计算与大数据研究所所有,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明来源。Onlyforprev 第1章AI发展全面加速,智能未来走深向实1.1算法:迈入万亿参数大模型时代,开启通用人工智能的大门1.2算力:单卡算力2-3年翻倍,算力集群规模从干卡走向万卡,1.3数据:数据需求持续增长,对高质量数据需求迫切第2章AI大模型时代到来,网络面临巨大技术革新.2.1AI大模型并行计算模式,催生超大容量网络102.2AI处理器成本高昂,要求减少网络时间,提升有效算力..122.3AI大模型训练周期长,需要高可用健壮网络降低MTBF..132.4AI大模型云化即AICLOUD,需要面向多租户的云网一体化架构...15第3章星河AI网络打造AI时代最强运力,以网强算,释放AI生产力.163.1高吞吐:端口和网络高吞吐,173.2高可靠:故障链路亚毫秒级快速切换22 243.3可运维:通信异常一键诊断3.4大规模:超大规模算力集群303.5开放性:标准以太RoCE高效开放.33第4章最佳实践354.1武汉人工智能计算中心35第5章展望.38第6章术语与缩略词表39第7章参考文献41Onlyforprevi AI发展全面加速,智能未来走 深向实 随着ChatGPT引爆国内人工智能(Al,artificial intelligence)市场,行业进入了生成式人工智能时代,将人工智能深度学习这波高潮推向了顶峰。当前,AI训练模型正在从万干小模型走向百模干态的大模型时代,AI技术在干行百业中呈现出百模干态的繁荣局面,同时也对网络提出了新的需求。 在科技发展的浪潮中,AI的发展由算法、算力和数据三个核心要素决定,算法可以看成是人工智能这艘巨舰的“舵”,而算力和数据则分别是推动人工智能发展的“发动机”和“石油”。Onlyforpr 1.1算法:迈入万亿参数大模型时代,开启通用人工智能的大门 自2017年Google提出Transformer模型[1以来,至今Al大语言模型(LLM,LargeLanguageModel)已取得了飞速的发展。 模型结构渐收敛到以解码器结构模型为主 当前大语言模型皆是由Transformer模型结构演进而来,Transformer模型由编码器(Encoder)-解码器(Decoder)结构组成。2018年,Google提出了仅有编码器(Encoder-only)的BERT模型,随后在2018年~2021年期间,Google、Meta微软和百度等公司也在BERT基础上提出了改进的编码器模型[2]。然而在2021年之后,编码器结构模型路线几乎停止演进。另一方面,Google和Meta在2019年分别推出T5(Text-To-TextTransfer Transformer)模型和基于编码器-解码器结构的BART,且Google在过去几年仍持续优化演进T5模型。目前,大语言模型的主战场主要聚焦在解码器结构模型。随着模型结构发展至今,除了OpenAI公司的GPT系列模型(包括GPT1、GPT2、GPT3、InstructGPT、ChatGPT3.5和GPT4)外,Google的PaLM系模型、Meta的LLaMa系模型,以及国内华为的盘古(PanGu-Z)、百度的文心一言(ERNIE)等主流模型都采用解码器结构。通常,解码器结构的大语言模型在预训练时,表现出了更好的泛化能力[3] 大模型扩展定律驱动模型规模持续增长 过去6年里,Al大语言模型参数量从Transformer的6500万,增长到GPT4的1.8万亿,模型规模增长超2万倍,如图1-1所示。 根据Al大模型的扩展定律(Scalinglaw)[4],增大模型的参数规模、训练数据集,投入更多的算力,就能持续提升大模型性能。此外,Google的研究[5]表明Al大模型表现出一种无法预测和解释的现象一一涌现能力。所谓涌现能力就是由大模型的量变,即更大的参数规模、更多的训练样本以及更高的算力供给,引发的质变,使得AI大模型在解决通用问题上表现出非常优异的性能。正是扩展定律和涌现能力,驱动着AI大模型规模的持续增大。随着GPT4、盘古等万亿模型的发布,也正式标志着,AI大模型进入了万亿模型时代。但与此同时,AI大模型的持续扩展开始面临着模型规模提升带来的收益递减的挑战。 多模态模型开启通用人工智能大门 OpenAl在GPT4模型中引入了多模态处理能力,能同时处理文本、图像、视频等多元化数据。多模态处理能力可以对不同呈现形式的信息进行融合理解,进一步提升AI大模型的学习能力,帮助A从多维度更好的理解真实的物理世界,对于通用人工智能的实现有着重要的作用。目前文本、音频、图像等单模态大语言模型已经相对 成熟,大模型正加速朝着多模态模型的方向发展。从VisionTransformer的提出再到GPT4的图文处理能力,多模态模型取得了明显的进步,如图1-2所示。 为进一步提升多模态模型的效率,模型通常采用混合专家并行(MoE,MixtureofExperts)架构,可以简单的理解为用不同的专家去学习、理解和处理不同模态的信息,从而整体实现多模态信息的融合处理。但是研究表明,在多任务处理中,更多的专家模型存在难以泛化的问题,也更难收敛。 因此,尽管GPT4模型的多模态能力有了长足的进步,但是多模态模型的发展仍处于起步阶段,面临着较大的挑战。 1.2算力:单卡算力2-3年翻倍,算力集群规模从干卡走向万卡 AI模型参数量的持续增大带来算力需求的指数级增长,如图1-3所示。2012年至2019年AI训练算力平均每100天翻倍。而GPU的单卡算力则需要2-3年增长一倍,由此可见,单卡算力的发展速度远远落后于模型发展的算力需求。 近年来,随着各行各业都投入到AI大模型的研发中来,AI智算的算力规模增长迅猛。据IDC(lnternationalDataCorporation)预测,到2o23年中国的智能算力规模将达到427.0EFLOPS,超过通用算力规模,预计到2026年,智能算力规模将进入 ZFLOPS级别,达到1,271.4EFLOPS,如图1-4所示。Onlyfor 为了满足高速增长的算力需求,AI大模型厂商都在加速建设大规模的GPU卡集群。Nvidia、斯坦福大学和微软的联合研究[7表明,训练AI大模型所需的GPU卡数,由模型参数量、样本数、GPU卡的峰值算力、GPU卡的利用率以及预期的训练时长决定。具体而言,存在如下的近似量化关系: 8×模型参数量×样本数需要的GPU卡数=预期的训练时长×GPU卡的峰值算力×GPU卡的利用率 以GPT3为例,模型参数量为1750亿,训练样本数为3000亿,如果GPU的峰值算力为312T,预期一个月完成模型训练,考虑到业界GPU的平均利用率为50%左右,则需要的GPU卡数为8×175B×300B/30×24×3600×312T×50%)1038卡,也就是一个月训练干亿参数的稠密模型需要干卡。随着A/模型进入万亿参数模型时代GPU卡的数量也进一步提高到万卡规模。据[6透露,OpenAl使用25000张A100GPU训练1.8万亿参数的GPT4。 1.3数据:数据需求持续增长,对高质量数据需求迫切 随着A大模型能力的持续优化,更大的模型需要基于更海量数据集训练。OpenAl的GPT1模型曾在11o亿样本的BooksCorpus数据集上训练。发展到GPT4,模型需要在总共13万亿样本的多个数据集上训练。由此可见AI大模型预训练所需要的数据集数量飞速增长。研究者在数据集规模上,也发现了类似模型规模扩展定律的规律,即同一模型,在更多的数据集上训练,模型性能就越好[3。斯坦福大学的吴恩达教授更是号召AI的发展要从以模型为中心走向以数据为中心7,提出AI的研究要更加专注于数据的价值,以高质量数据集的构建,进一步推动AI模型的性能突破,并且提出A/模型的二八定律,即为了获得更好、更优的A/模型,人类的投入应为80%的数据投入和20%的模型算法投入。 然而,随着AI模型规模的持续增长,对数据集质量也提出了更高的要求,数据不仅要多,而且要质量高。研究8表明,在低质量数据集的预训练,比如噪声数据有毒数据、重复数据,会损坏模型的性能。Meta的研究[9]表明,更高质量的数据比如高质量人工标注数据,可以弥补模型规模的差距。受益于高质量数据训练Llama2(70B)取得了与Google的PaLM(540B)相当的性能。自前,人类掌握的公开数据集[10],大约在数10T规模,如表1-1所示。麻省理工大学等研究机构的研究[11]显示,高质量的语言数据将在2026年耗尽,低质量的语言数据将在2030~2050年间枯竭。A/大模型马上就将面临训练样本不足的挑战,人类需加强高质量的数据处理、标注,建立完善的数据收集和评估体系,以更高质量的数据推动AI大模型性能的进一步提升。Onlyfor 第2章 AI大模型时代到来,网络面临巨大技术革新 随着AI模型参数的规模越来越大,从干亿增长到万亿、十万亿级,客户将面临数亿级美元的投入,以及长达数周乃至数月的训练周期,训练难度和成本与日俱增。 网络作为计算集群重要的组成部分,也面临着巨大的挑战。 首先,AI大模型并行计算模式需要以超大容量的网络为基础,从而催生了新的大规模网络架构。 其次,AI处理器的成本高昂,为了充分发挥处理器性能,提高其利用率,需要尽可能的减少网络通信时间,提升网络效率。 最后,AI大模型训练周期长,训练过程中极易出现可靠性问题,导致网络频繁中断,降低训练效率。驱需通过提升网络健壮性,确保训练高效可靠的进行。 2.1AI大模型并行计算模式,催生超大容量网络 AI大模型训练相比通用计算需要更多的处理器参与并行计算,如何协作数万张处理器,保证计算“加速比”不随着算力规模的增大而大幅降低,避免出现1+1<2的效果,是AI网络发展面临的第一大问题。 为此,业界推出了如下多种并行计算方式: 数据并行(DP,DataParallelism):通过把训练数据集分为多份,并行训练,从而减少训