行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

DeepSeek-V3 技术报告

2024-12-27 DeepSeek-AI 测试专用号1普通版

核心观点

DeepSeek-V3 是一个参数总量为 671B、每个标记激活参数量为 37B 的强大专家混合（MoE）语言模型，在 14.8 万亿个多样且高质量的标记上进行预训练。
模型采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，并引入了无辅助损失的负载均衡策略和多标记预测训练目标，以提升性能和效率。
DeepSeek-V3 在多个基准测试中优于其他开源模型，并实现了与领先闭源模型相当的性能，尤其在代码和数学方面表现突出。
模型的完整训练仅需 2.788M H800 GPU 小时，展现出显著的经济效益和训练稳定性。

关键数据

DeepSeek-V3 的参数总量为 6710 亿，每个标记激活参数量为 370 亿。
预训练过程使用了 14.8 万亿个标记，训练成本为 2664K GPU 小时。
上下文长度扩展后，模型能够处理长达 128K 的输入。
训练后阶段包括监督微调和强化学习，进一步提升了模型性能。

研究结论

DeepSeek-V3 是目前最强的开源基础模型，在代码和数学方面表现突出。
模型在多个标准及开放式基准测试中实现了与领先闭源模型（包括 GPT-4o 和 Claude-3.5-Sonnet）相当的性能。
DeepSeek-V3 的训练成本相对经济，展现出良好的经济效益和训练稳定性。

DeepSeek-AI research@deepseek.com 摘要我们提出了DeepSeek-V3，一个参数总量为671B、每个标记激活参数量为37B的强大专家混合（Mixture-of-Experts，MoE）语言模型。为实现高效推理和成本效益显著的训练，DeepSeek-V3采用了在DeepSeek-V2中得到充分验证的多头潜在注意力（Multi-head Latent Attention，MLA）和DeepSeekMoE架构。此外，DeepSeek-V3开创了一种无辅助损失的负载均衡策略，并设定了多标记预测训练目标以提升性能。我们在14.8万亿个多样且高质量的标记上进行DeepSeek-V3的预训练，随后进行监督微调和强化学习阶段以充分发挥其能力。综合评估表明，DeepSeek-V3优于其他开源模型，并实现了与领先闭源模型相当的性能。尽管性能出色，DeepSeek-V3的完整训练仅需2.788M H800 GPU小时。此外，其训练过程表现出显著稳定性。在整个训练过程中，我们未经历任何不可恢复的损失峰值，也未执行任何回滚操作。https://github.com/deepseek-ai/DeepSeek-V3模型检查点可用在. 目录 1 引言 2 建筑 2.1 基本架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6 2.1.1 多头潜在注意力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7 2.1.2 具有辅助损失无负载均衡的DeepSeekMoE . . . . . . . . . . . . . .8 2.2 多标记预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 10 3 基础设施 11 3.1 计算集群……………...……...……...……...……...……...……...……...…….113.2 培训框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2.1 双管和计算-通信重叠 . . . . . . . . . . . . 123.2.2 跨节点全对全通信的高效实现 . . . . 133.2.3 极端节省内存且开销最小 . . . . . . . . . . . . . 143.3 FP8 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.3.1 混合精度框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.3.2 通过量化和乘法提高精度 . . . . . . . . . . . 163.3.3 低精度存储和通信 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.4 推理与部署 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.5 硬件设计建议 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.5.1 通信硬件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.5.2 计算硬件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.4.1 预填充 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.2解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 22 24.1 数据构建 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 224.2 超参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 224.3 长上下文扩展 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 234.4 评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 244.4.1 评估基准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 244.4.2 评估结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 254.5 讨论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 264.5.1 多标记预测的消融研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.5.2 无辅助损失平衡策略的消融研究 . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.5.3 批量式负载均衡 VS. 序列式负载均衡 . . . . . . . . . . . . . . 27 285 训练后5.1 监督微调 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285.2 强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.2.1 奖励模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.2.2 集团相对策略优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.3 评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.3.1 评估设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.3.2 标准评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5.3.3 开放式评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.3.4 DeepSeek-V3 作为生成式奖励模型 . . . . . . . . . . . . . . . . . . . . 335.4 讨论………...……...……...……...……...……...……...……...……...……...345.4.1 从DeepSeek-R1蒸馏………...……...……...……...……...……...……...345.4.2 自奖励………...……...……...……...……...……...……...……...345.4.3 多标记预测评估………...……...……...……...……...……...……...35 6 结论、局限性与未来方向 35 A 贡献与致谢 45 B 烧蚀研究用于低精度训练 47 B.1 FP8 v.s. BF16 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47B.2 Discussion About Block-Wise Quantization . . . . . . . . . . . . . . . . . . . . . . 47 C 专家专长模式：基于 16B 辅助损失模型和无辅助损失模型的 48 1. 引言近年来，大型语言模型（LLMs）正经历着快速迭代和演进（Anthropic，2024；Google，2024；OpenAI，2024a），逐步缩小与通用人工智能（AGI）的差距。除了闭源模型，开源模型（包括DeepSeek系列（DeepSeek-AI，2024a,b,c；Guo等人，2024）、LLaMA系列（AI@Meta，2024a,b；Touvron等人，2023a,b）、Qwen

点击免费查看完整报告

你可能感兴趣

DeepSeek-V3 技术报告

核心观点

关键数据

研究结论

你可能感兴趣

如何看待 Deepseek-V3 低成本? 激光雷达：高阶智驾最强B之一，业绩步入兑现期

影视传媒行业周报：12月游戏版号发放，DeepSeek-V3正式发布

计算机行业周报：阿里深夜开源Qwen2.5-Omni，DeepSeek-V3 上线新版本

传媒互联网行业周报：OpenAI发布GPT-4o生图功能，DeepSeek-V3完成版本升级

传媒互联网行业周报：DeepSeek-V3发布，12月135款游戏版号获批