AI智能总结
1大模型发展趋势和训练面临的挑战 大模型成为人工智能发展的重要方向 •生成式大模型突飞猛进,5年时间,模型参数规模增长100万倍,达到万亿量级 •ScalingLaw[1]:数据越多、模型越大,模型学习能力越强,模型效果越好 大模型发展趋势-模态变化 大模型发展趋势-MOE以及更长ContextWindow 模型容量/效果 模型参数量越大效果越好相同激活参数量,MoE更好 总参量:~1.8T训练数据:~13TTokens激活2个Expert(111B参数/Expert)Self-Attention层是55B的共享参数ContextWindow,最初是8K,逐步精调至32K 训练/推理成本成本低,e.g.,GLaM[1]训练成本相当于GPT-3的1/3, 推理成本相当于GPT-3的1/2,但效果超过GPT-3 终身学习 各类数据,知识和特征分布不同,容易出现知识干扰和遗忘Dense模型数据的配比挑战很大,配比小的数据很难表现较好 [1]GLaM: Efficient Scaling of Language Models with Mixture-of-Experts[2]Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity[3]Lifelong Language Pretraining with Distribution-Specialized Experts[4] https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ 大模型训练的挑战 2大模型训练框架AngelPTM AngelPTM大模型概述 产出混元万亿参数模型,训练性能是业界开源框架的2.6倍,推理性能是业界2.3倍 ç单个训练任务突破万卡规模,达到99%线性加速比,并实现万卡长稳训练 ç2023年中国电子学会科技进步一等奖,腾讯首次VLDB、SIGMOD、EMNLP3篇国际顶会论文,VLDB最佳论文12项发明专利,多篇媒体报道 影响力 AngelPTM大模型训练框架图 AngelPTM:ZeROCache存储优化技术提高模型容量90% GPU显存与系统内存统一编址,统一视角管理,扩大了显存可存储模型的容量 模型存储容量提升90%,同时,使得24G/40G低配GPU卡也可训练大模型,突破了高端算力限制,目前已基于40G显存低配卡训练出腾讯混元千亿大模型、24G低配卡实现模型精调; 数据并行:提高数据吞吐张量并行:引入通信,多卡分担显存压力流水并行:流水线提高并行效率,P2P低通信量 序列并行:LayerNorm和Dropout的计算和激活值被平摊到各个设备,减少冗余计算和显存开销 AngelPTM:大规模之计算通信流水线与低精度量化技术 挑战:在多维并行策略中,需避免计算、通信操作串行,以及采用低精度更少字节数,进一步降低网络通信量 MOE:Expert并行+ExpertTP+ExpertDP实现万亿MOE模型的高效训练 •Router选择•ExpertChoice •Top-1,2•MoE并行策略 •ExpertParallel+DataParallel(EP+DP)•支持Dense部分采用TensorParallel+SequenceParallel(TP+SP)•支持Expert部分采用TensorParallel+SequenceParallel(TP+SP)•支持PipelineParallel(PP)•MoE通信优化 •通过Expert SequenceParallel减少ExpertTensorParallel带来的冗余通信•All2all通信计算overlap AngelPTM:Context并行实现100MContextWindow训练 精度无损,增加GPU卡量,context windows理论上支持无限大 固定GPU的情况下,如果要继续增大context windows,需要降低单卡的显存压力,可以通过激活值offload优化显存 可增加卡的情况下,通信压力会上升,可对通信计算overlap进行优化 AngelPTM:Context并行实现100MContextWindow训练 精度无损,context windows长度受限于GPU卡数量,支持窗口长度和Ring Attention一致。 针对decoder-only模型优化计算负载不均衡。 3大模型超大规模集群训练优化和实践 大模型大规模训练挑战 训练性能能否线性扩展?实现大规模训练性能的Scale law,即随着卡数增加训练性能线性增加大规模训练通信压力大有效带宽低、 带宽利用不均衡带宽利用率低大模型训练BatchSize扩大是否有特定的Scale law,即BatchSize的增大不影响模型效果 大规模训练故障频繁,持续长时间稳定训练如何保障?GPU卡硬件故障导致训练中断 训练速度异常训练卡顿GPU卡精度异常 大规模大BatchSize训练,平衡训练效率和模型效果 利用BatchSize和Lr的ScalingLaw突破大BatchSize影响模型效果的挑战,提高大模型训练GPU利用率[1] [1]https://arxiv.org/pdf/2405.14578 大规模训练通信优化:GPU通信拓扑感知,软硬件协同亲和性优化提高通信效率 大规模训练网络通信挑战:1.网络通信随着卡数增加通信带宽衰减 2.单个集群多个任务同时运行,每个任务分配GPU不全满足集群亲和性3.随着模型增大,通信量增加,通信耗时增加 3D并行机制网络亲和性优化,TP以及DP走最优网络路径,PP通信次之,保证通信效率,通信带宽达到有效带宽80% 大规模训练稳定性优化 多团队保障提前预警故障,问题机器实时提出,快速恢复训练 自动续训机制保障任务快速恢复,减少中断耗时 大规模训练优化成果 Thanks