行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 大模型

大模型分布式训练的第四种境

文化传媒2023-08-08DataFunSummit2023：大模型与AIGC峰会d***

AI智能总结

分布式训练技术发展及未来挑战

历史背景

LLM 发展需求：大型语言模型（LLM）需要巨大的算力，Transformer 模型的 FLOPs 计算公式为 C ≈ 6ND，其中 N 为参数数量，D 为训练的 token 数量。
算力缺口：模型参数与内存需求差距巨大，以 A100 峰值算力计算，仅能支持约 254 年的训练，而 PaLM 模型需要 2048 个 GPU 才能在 46/R 天内完成训练。
分布式训练系统：为解决算力瓶颈，分布式训练系统应运而生，通过图和设备集群优化计算资源。

分布式训练技术体系

技术发展简史：
- 计算图与放置优化：如 FSL、PathWay@Google、CLIP@OpenAI 等。
- 早期框架：DistBelief、Parameter Server、Bosen、GeePS 等。
主要技术分类：
- ZeRO-DP 数据并行家族：通过 Recompute 和 Offload Memory/NVME 优化内存。
- 同步流水线并行家族：包括 DAPPLE、Interleaved 1F1B、Meark、Chimera 等。
- 异步流水线并行家族：如 Pipedream。
- 张量并行家族。

未来挑战

技术方向：
- 性能优化：开发更精准的 Profiler 以支持调度器和人工优化。
- 自动并行化：实现自动化的并行计算优化。
- 新模块支持：探索其他模型模块的分布式训练方法。

段石石-壁仞科技-技术专家 DataFunSummit#2023 目录CONTENT 历史背景分布式训练技术介绍未来挑战分布式训练挑战 01历史背景 Large Language Models LLMInfra 分布式训练挑战 DataFunSummit#2023 LLM needHuge FLOPS Transformer FLOPs Equation： C=�T≈6ND N：the number of parameters;D: the number of tokens that model is train on; Model Parameters vs. Memory Gap become huge Gap become huge Distributed ML System A100峰值算力 2.53*10^24/312*10^12/86400=254year PaLM所需算力 T≈6ND/(�*#GPU*R) 2048 GPUs: 46/R days https://www.bilibili.com/video/BV1iu4y1Z7bv/?vd_source=8d00c2c0cdbe325ba3b959e4aea901ea Graph & Device Cluster OptimizerWeight=F(Weight, Grad) 分布式训练技术体系 DataFunSummit#2023 Brief Histroy •Compute Graph and Placement •Large language model wit FSL;•PaLM:PathWay@Google；•CLIP@OpenAI，连接图与文； •DistBelief;•Parameter Server[limu]；•Bosen；•GeePS； ZeRO-DP Data Parallelism Family Recompute Offload Memory/NVME Synchronous Pipeline Parallelism Family Synchronous Pipeline Parallelism Family Synchronous Pipeline Parallelism Family--DAPPLE Synchronous Pipeline Parallelism Family--Interleaved 1F1B Synchronous Pipeline Parallelism Family-Meark Synchronous Pipeline Parallelism Family-Chimera Asynchronous Pipeline Parallelism Family-Pipedream Tensor Parallelism Family Tensor Parallelism Family 04未来挑战未来挑战 •Profiler For Scheduler/Human；•Auto parallel；•Other Model module？；感谢观看

点击免费查看完整报告