DeepSeek-AI research@deepseek.com 摘要 我们推出了DeepSeek-V3,这是⼀个强⼤的混合专家(MoE)语⾔模型,总参数为671B,每个token激活37B。为了实现⾼效推理和具有成本效益的训练,DeepSeek-V3采⽤了多头潜在注意⼒(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3开创了⼀种⽆辅助损失的负载平衡策略,并设定了多token预测训练⽬标,以实现更强的性能。我们在148万亿个多样化和⾼质量的token上对DeepSeek-V3进⾏了预训练,随后进⾏了监督微调和强化学习阶段,以充分发挥其能⼒。全⾯评估表明,DeepSeek-V3的表现优于其他开源模型,并且其性能可与领先的闭源模型相媲美。尽管表现出⾊,DeepSeek-V3的完整训练仅需2.788M H800 GPU⼩时。此外,其训练过程⾮常稳定。在整个训练过程中,我们没有经历任何不可恢复的损失峰值,也没有进⾏任何回滚。模型检查点可在 内容 1引⾔4 2架构62.1基本架构62.1.1多头潜在注意⼒72.1.2 DeepSeekMoE与⽆辅助损失负载平衡82.2多标记预测10 3基础设施11 3.3FP8训练143.3.1混合精度框架153.3.2量化和乘法带来的精度提升163.3.3低精度存储和通信18 3.4推理与部署3.4.1预填充3.4.2解码 181919 3.5硬件设计建议3.5.1通信硬件3.5.2计算硬件 202020 4预训练22 4.1数据构建22 4.2超参数22 4.5讨论264.5.1多标记预测的消融研究264.5.2辅助损失⾃由平衡策略的消融研究27 4.5.3批量负载平衡VS.序列负载平衡 5.1监督微调28 5.3评估5.3.1评估设置5.3.2标准评估5.3.3开放式评估5.3.4 DeepSeek-V3作为⽣成奖励模型 3030323333 5.4讨论5.4.1从DeepSeek-R1蒸馏5.4.2⾃我奖励5.4.3多标记预测评估 6结论、局限性和未来⽅向35 A贡献与致谢45B低精度训练的消融研究47 B.1 FP8与BF16训练B.2关于块级量化的讨论 4747 C专家专业化模式的16B辅助损失基础和⽆辅助损失模型48 1.引⾔ 近年来,⼤型语⾔模型(LLMs)正在经历快速的迭代和演变(Anthropic, 2024; Google, 2024;OpenAI, 2024a),逐渐缩⼩与⼈⼯通⽤智能(AGI)之间的差距。除了闭源模型,开源模型,包括DeepSeek系列(DeepSeek-AI, 2024a,b,c; Guo et al., 2024)、LLaMA系列(AI@Meta, 2024a,b;Touvron et al., 2023a,b)、Qwen系列(Qwen, 2023, 2024a,b)和Mistral系列(Jiang et al., 2023;Mistral, 2024),也在取得显著进展,努⼒缩⼩与其闭源同⾏的差距。为了进⼀步推动开源模型能⼒的边界,我们扩⼤了模型规模,并推出DeepSeek-V3,这是⼀个具有671B参数的⼤型专家混合模型(MoE),其中每个token激活37B参数。 从前瞻性的⻆度出发,我们始终努⼒追求强⼤的模型性能和经济的成本。因此,在架构⽅⾯,DeepSeek-V3仍然采⽤多头潜在注意⼒(MLA)(DeepSeek-AI, 2024c)以实现⾼效推理,并采⽤DeepSeekMoE(Dai et al., 2024)以实现经济⾼效的训练。这两种架构已在DeepSeekV2 (DeepSeek-AI, 2024c)中得到了验证,证明它们能够在实现⾼效训练和推理的同时保持强⼤的模型性能。除了基本架构外,我们还实施了两种额外策略,以进⼀步增强模型能⼒。⾸先,DeepSeek-V3⾸创了⼀种⽆辅助损失策略(Wang et al., 2024a)⽤于负载均衡,旨在最⼩化因⿎励负载均衡⽽对模型性能产⽣的不利影响。其次,DeepSeek-V3采⽤了多标记预测训练⽬标,我们观察到这增强了在评估基准上的整体性能。 为了实现⾼效训练,我们⽀持FP8混合精度训练,并对训练框架实施全⾯优化。低精度训练已成为⾼效训练的⼀个有前景的解决⽅案(Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017;Peng et al., 2023b),其演变与硬件能⼒的进步密切相关(Luo et al., 2024; Micikevicius et al., 2022;Rouhani et al., 2023a)。在这项⼯作中,我们引⼊了FP8混合精度训练框架,并⾸次验证其在极⼤规模模型上的有效性。通过对FP8计算和存储的⽀持,我们实现了加速训练和减少GPU内存使⽤。⾄于训练框架,我们设计了DualPipe算法以实现⾼效的管道并⾏性,该算法具有更少的管道⽓泡,并通过计算-通信重叠在训练过程中隐藏了⼤部分通信。这种重叠确保了,随着模型的进⼀步扩展,只要我们保持恒定的计算与通信⽐率,我们仍然可以在节点之间使⽤细粒度专家,同时实现接近零的全到全通信开销。此外,我们还开发了⾼效的跨节点全到全通信内核,以充分利⽤InfiniBand (IB)和NVLink带宽。此外,我们还精⼼优化了内存占⽤,使得在不使⽤昂贵的张量并⾏的情况下训练DeepSeek-V3成为可能。 通过结合这些努⼒,我们实现了⾼训练效率。 在预训练期间,我们在14.8T⾼质量和多样化的标记上训练DeepSeek-V3。预训练过程⾮常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值,也不需要回滚。接下来,我们对DeepSeek-V3进⾏两阶段的上下⽂⻓度扩展。在第⼀阶段,最⼤上下⽂⻓度扩展到32K,在第⼆阶段,进⼀步扩展到128K。随后,我们进⾏后训练,包括对DeepSeek-V3基础模型的监督微调(SFT)和强化学习(RL),以使其与⼈类偏好对⻬,并进⼀步释放其潜⼒。在后训练阶段,我们从DeepSeekR1系列模型中提炼推理能⼒,同时仔细保持模型准确性之间的平衡。 我们从DeepSeekR1系列模型中提炼推理能⼒表1 | DeepSeek-V3的训练成本,假设H800的租赁价格为每个GPU⼩时2美元。 和⽣成⻓度。 我们在⼀系列综合基准上评估了DeepSeek-V3。尽管其训练成本经济,但全⾯评估显示,DeepSeek-V3-Base已成为⽬前可⽤的最强开源基础模型,特别是在代码和数学⽅⾯。其聊天版本也优于其他开源模型,并在⼀系列标准和开放式基准上达到了与领先的闭源模型(包括GPT-4o和Claude-3.5-Sonnet)相当的性能。 最后,我们再次强调DeepSeek-V3的经济训练成本,如表1所示,这是通过我们优化的算法、框架和硬件的共同设计实现的。在预训练阶段,训练DeepSeek-V3每万亿个标记仅需180K H800 GPU⼩时,即在我们拥有2048个H800 GPU的集群上仅需3.7天。因此,我们的预训练阶段在不到两个⽉的时间内完成,耗时2664K GPU⼩时。结合119K GPU⼩时⽤于上下⽂⻓度扩展和5K GPU⼩时⽤于后训练,DeepSeek-V3的完整训练仅需2.788M GPU⼩时。假设H800 GPU的租赁价格为每GPU⼩时2美元,我们的总训练成本仅为557.6万美元。请注意,上述成本仅包括DeepSeek-V3的官⽅训练,不包括与先前研究和架构、算法或数据的消融实验相关的成本。 我们的主要贡献包括: 架构:创新的负载均衡策略和训练⽬标 •在DeepSeek-V2⾼效架构的基础上,我们开创了⼀种⽆辅助损失的负载均衡策略,最⼩化因促进负载均衡⽽导致的性能下降。•我们研究了⼀种多标记预测(MTP)⽬标,并证明它对模型性能有益。它还可以⽤于推测解码以加速推理。 预训练:迈向终极训练效率 •我们设计了⼀个FP8混合精度训练框架,并⾸次验证了FP8训练在极⼤规模模型上的可⾏性和有效性。•通过算法、框架和硬件的共同设计,我们克服了跨节点MoE训练中的通信瓶颈,实现了近乎完全的计算与通信重叠。这显著提⾼了我们的训练效率并降低了训练成本,使我们能够在没有额外开销的情况下进⼀步扩⼤模型规模。 •以仅2.664M H800 GPU⼩时的经济成本,我们在14.8T标记上完成了DeepSeek-V3的预训练,产⽣了⽬前最强的开源基础模型。预训练后的后续训练阶段仅需0.1M GPU⼩时。 后训练:来⾃DeepSeek-R1的知识蒸馏 •我们引⼊了⼀种创新的⽅法,将推理能⼒从⻓链思维(CoT)模型中提炼出来,特别是从DeepSeek R1系列模型中的⼀个,转化为标准LLMs,尤其是DeepSeek-V3。我们的流程优雅地结合了 将R1的验证和反思模式引⼊DeepSeek-V3,并显著提⾼其推理性能。同时,我们还控制DeepSeek-V3的输出⻛格和⻓度。 核⼼评估结果摘要 •知识:(1)在教育基准测试如MMLU、MMLU-Pro和GPQA上,DeepSeek-V3的表现优于所有其他开源模型,在MMLU上获得88.5分,在MMLU-Pro上获得75.9分,在GPQA上获得59.1分。它的表现与领先的闭源模型如GPT-4o和Claude-Sonnet-3.5相当,缩⼩了这⼀领域开源模型与闭源模型之间的差距。(2)在事实性基准测试中,DeepSeek-V3在SimpleQA和中⽂SimpleQA上表现出⾊,成为开源模型中的佼佼者。尽管在英语事实知识(SimpleQA)上落后于GPT-4o和Claude-Sonnet-3.5,但在中⽂事实知识(中⽂SimpleQA)上超越了这些模型,突显了其在中⽂事实知识⽅⾯的优势。 •代码、数学和推理:(1)DeepSeek-V3在所有⾮⻓链思维的开源和闭源模型中,在与数学相关的基准测试中达到了最先进的性能。值得注意的是,它在特定基准测试(如MATH-500)上甚⾄超越了o1-preview,展示了其强⼤的数学推理能⼒。(2)在与编码相关的任务中,DeepSeek-V3成为编码竞赛基准测试(如LiveCodeBench)中表现最好的模型,巩固了其在该领域的领先地位。在与⼯程相关的任务中,虽然DeepSeek-V3的表现略低于Claude-Sonnet-3.5,但仍然以显著的优势超越了所有其他模型,展示了其在各种技术基准测试中的竞争⼒。 在本⽂的其余部分,我们⾸先详细介绍我们的DeepSeek-V3模型架构(第2节)。随后,我们介绍我们的基础设施,包括我们的计算集群、训练框架、对FP8训练的⽀持、推理部署策略以及我们对未来硬件设计的建议。接下来,我们描述我们的预训练过程,包括训练数据的构建、超参数设置、⻓上下⽂扩展技术、相关评估以及⼀些讨论(第4节)。之后,我们讨论我们在后训练⽅⾯的努⼒,包括监督微调(SFT)、强化学习(RL)、相应的评估和讨论(第5节)。最后,我们总结这项⼯作,讨论DeepSeek-V3的现有局限性,并提出未来研究的潜在⽅向(第6节)。 2.架构 我们⾸先介绍DeepSeek-V3的基本架构,其特点是多头潜在注意⼒(MLA)(DeepSeek-AI,2024c)⽤于⾼效推理,以及DeepSeekMoE(Dai等,2024)⽤于经济训练。然后,我们提出了⼀种多标记预测(MTP)训练⽬标,我们观察到它能够增强在评估基准上的整体性能。对于其他未明确提及的细节,DeepSeek-V3遵循DeepSeekV2(DeepSeek-AI,2024c)的设置。 2.1.基本架构 DeepSeek-V3的基本架构仍然在Transformer(Vaswani等,2017)框架内。为了⾼效推理和经济训练,DeepSeek-V3还采⽤了MLA和