DeepSeek-AI research@deepseek.com 摘要 我们提出了DeepSeek-V3,一个参数总量为671B、每个标记激活参数量为37B的强大专家混合(Mixture-of-Experts,MoE)语言模型。为实现高效推理和成本效益显著的训练,DeepSeek-V3采用了在DeepSeek-V2中得到充分验证的多头潜在注意力(Multi-head Latent Attention,MLA)和DeepSeekMoE架构。此外,DeepSeek-V3开创了一种无辅助损失的负载均衡策略,并设定了多标记预测训练目标以提升性能。我们在14.8万亿个多样且高质量的标记上进行DeepSeek-V3的预训练,随后进行监督微调和强化学习阶段以充分发挥其能力。综合评估表明,DeepSeek-V3优于其他开源模型,并实现了与领先闭源模型相当的性能。尽管性能出色,DeepSeek-V3的完整训练仅需2.788M H800 GPU小时。此外,其训练过程表现出显著稳定性。在整个训练过程中,我们未经历任何不可恢复的损失峰值,也未执行任何回滚操作。https://github.com/deepseek-ai/DeepSeek-V3模型检查点可用在. 目录 1 引言 2 建筑 2.1 基本架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6 2.1.1 多头潜在注意力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7 2.1.2 具有辅助损失无负载均衡的DeepSeekMoE . . . . . . . . . . . . . .8 2.2 多标记预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 10 3 基础设施 11 3.1 计算集群……………...……...……...……...……...……...……...……...…….113.2 培训框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2.1 双管和计算-通信重叠 . . . . . . . . . . . . 123.2.2 跨节点全对全通信的高效实现 . . . . 133.2.3 极端节省内存且开销最小 . . . . . . . . . . . . . 143.3 FP8 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.3.1 混合精度框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.3.2 通过量化和乘法提高精度 . . . . . . . . . . . 163.3.3 低精度存储和通信 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.4 推理与部署 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.5 硬件设计建议 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.5.1 通信硬件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.5.2 计算硬件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.4.1 预填充 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.2解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 22 24.1 数据构建 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 224.2 超参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 224.3 长上下文扩展 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 234.4 评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 244.4.1 评估基准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 244.4.2 评估结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 254.5 讨论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 264.5.1 多标记预测的消融研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.5.2 无辅助损失平衡策略的消融研究 . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.5.3 批量式负载均衡 VS. 序列式负载均衡 . . . . . . . . . . . . . . 27 285 训练后5.1 监督微调 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285.2 强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.2.1 奖励模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.2.2 集团相对策略优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.3 评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.3.1 评估设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.3.2 标准评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5.3.3 开放式评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.3.4 DeepSeek-V3 作为生成式奖励模型 . . . . . . . . . . . . . . . . . . . . 335.4 讨论………...……...……...……...……...……...……...……...……...……...345.4.1 从DeepSeek-R1蒸馏………...……...……...……...……...……...……...345.4.2 自奖励………...……...……...……...……...……...……...……...345.4.3 多标记预测评估………...……...……...……...……...……...……...35 6 结论、局限性与未来方向 35 A 贡献与致谢 45 B 烧蚀研究用于低精度训练 47 B.1 FP8 v.s. BF16 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47B.2 Discussion About Block-Wise Quantization . . . . . . . . . . . . . . . . . . . . . . 47 C 专家专长模式:基于 16B 辅助损失模型和无辅助损失模型的 48 1. 引言 近年来,大型语言模型(LLMs)正经历着快速迭代和演进(Anthropic,2024;Google,2024;OpenAI,2024a),逐步缩小与通用人工智能(AGI)的差距。除了闭源模型,开源模型(包括DeepSeek系列(DeepSeek-AI,2024a,b,c;Guo等人,2024)、LLaMA系列(AI@Meta,2024a,b;Touvron等人,2023a,b)、Qwen