行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

arXiv-DeepSeekV3 技术报告

信息技术 2024-12-27 - DeepSeek 王英杰

核心观点

模型架构: DeepSeek-V3 是一个 671B 参数的混合专家（MoE）语言模型，采用多头潜在注意力（MLA）和 DeepSeekMoE 架构，并引入了无辅助损失的负载平衡策略和多标记预测（MTP）训练目标，以实现高效推理和经济训练。
预训练: DeepSeek-V3 在 148 万亿个多样化和高质量的 token 上进行预训练，并进行了上下文长度扩展，达到 128K，展现出强大的性能。
后训练: DeepSeek-V3 通过监督微调和强化学习进行后训练，并从 DeepSeek-R1 系列模型中提炼推理能力，进一步提升其性能。
评估: DeepSeek-V3 在一系列基准测试中表现出色，特别是在代码和数学方面，其性能可与领先的闭源模型相媲美。
训练成本: DeepSeek-V3 的完整训练仅需 2.788M H800 GPU 小时，总训练成本为 557.6 万美元，展现出经济高效的训练优势。

关键数据

模型参数: 671B 参数，每个 token 激活 37B 参数。
预训练数据: 148 万亿个 token。
训练成本: 2.788M H800 GPU 小时，总成本 557.6 万美元。
基准测试性能: 在 MMLU、MMLU-Pro、GPQA 等基准测试中表现优于其他开源模型，并与 GPT-4o 和 Claude-3.5 等闭源模型相当。

研究结论

DeepSeek-V3 是一个性能强劲且经济高效的开源语言模型，在代码、数学和推理方面展现出领先水平，并缩小了与闭源模型之间的差距。其创新的架构、训练策略和基础设施优化，为开源模型的未来发展提供了新的方向。

DeepSeek-AI research@deepseek.com 摘要我们推出了DeepSeek-V3，这是⼀个强⼤的混合专家（MoE）语⾔模型，总参数为671B，每个token激活37B。为了实现⾼效推理和具有成本效益的训练，DeepSeek-V3采⽤了多头潜在注意⼒（MLA）和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3开创了⼀种⽆辅助损失的负载平衡策略，并设定了多token预测训练⽬标，以实现更强的性能。我们在148万亿个多样化和⾼质量的token上对DeepSeek-V3进⾏了预训练，随后进⾏了监督微调和强化学习阶段，以充分发挥其能⼒。全⾯评估表明，DeepSeek-V3的表现优于其他开源模型，并且其性能可与领先的闭源模型相媲美。尽管表现出⾊，DeepSeek-V3的完整训练仅需2.788M H800 GPU⼩时。此外，其训练过程⾮常稳定。在整个训练过程中，我们没有经历任何不可恢复的损失峰值，也没有进⾏任何回滚。模型检查点可在内容 1引⾔4 2架构62.1基本架构62.1.1多头潜在注意⼒72.1.2 DeepSeekMoE与⽆辅助损失负载平衡82.2多标记预测10 3基础设施11 3.3FP8训练143.3.1混合精度框架153.3.2量化和乘法带来的精度提升163.3.3低精度存储和通信18 3.4推理与部署3.4.1预填充3.4.2解码 181919 3.5硬件设计建议3.5.1通信硬件3.5.2计算硬件 202020 4预训练22 4.1数据构建22 4.2超参数22 4.5讨论264.5.1多标记预测的消融研究264.5.2辅助损失⾃由平衡策略的消融研究27 4.5.3批量负载平衡VS.序列负载平衡 5.1监督微调28 5.3评估5.3.1评估设置5.3.2标准评估5.3.3开放式评估5.3.4 DeepSeek-V3作为⽣成奖励模型 3030323333 5.4讨论5.4.1从DeepSeek-R1蒸馏5.4.2⾃我奖励5.4.3多标记预测评估 6结论、局限性和未来⽅向35 A贡献与致谢45B低精度训练的消融研究47 B.1 FP8与BF16训练B.2关于块级量化的讨论 4747 C专家专业化模式的16B辅助损失基础和⽆辅助损失模型48 1.引⾔近年来，⼤型语⾔模型（LLMs）正在经历快速的迭代和演变（Anthropic, 2024; Google, 2024;OpenAI, 2024a），逐渐缩⼩与⼈⼯通⽤智能（AGI）之间的差距。除了闭源模型，开源模型，包括DeepSeek系列（DeepSeek-AI, 2024a,b,c; Guo et al., 2024）、LLaMA系列（AI@Meta, 2024a,b;Touvron et al., 2023a,b）、Qwen系列（Qwen, 2023, 2024a,b）和Mistral系列（Jiang et al., 2023;Mistral, 2024），也在取得显著进展，努⼒缩⼩与其闭源同⾏的差距。为了进⼀步推动开源模型能⼒的边界，我们扩⼤了模型规模，并推出DeepSeek-V3，这是⼀个具有671B参数的⼤型专家混合模型（MoE），其中每个token激活37B参数。从前瞻性的⻆度出发，我们始终努⼒追求强⼤的模型性能和经济的成本。因此，在架构⽅⾯，DeepSeek-V3仍然采⽤多头潜在注意⼒（MLA）（DeepSeek-AI, 2024c）以实现⾼效推理，并采⽤DeepSeekMoE（Dai et al., 2024）以实现经济⾼效的训练。这两种架构已在DeepSeekV2 （DeepSeek-AI, 2024c）中得到了验证，证明它们能够在实现⾼效训练和推理的同时保持强⼤的模型性能。除了基本架构外，我们还实施了两种额外策略，以进⼀步增强模型能⼒。⾸先，DeepSeek-V3⾸创了⼀种⽆辅助损失策略（Wang et al., 2024a）⽤于负载均衡，旨在最⼩化因⿎励负载均衡⽽对模型性能产⽣的不利影响。其次，DeepSeek-V3采⽤了多标记预测训练⽬标，我们观察到这增强了在评估基准上的整体性能。为了实现⾼效训练，我们⽀持FP8混合精度训练，并对训练框架实施全⾯优化。低精度训练已成为⾼效训练的⼀个有前景的解决⽅案（Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017;Peng et al., 2023b），其演变与硬件能⼒的进步密切相关（Luo et al., 2024; Micikevicius et al., 2022;Rouhani et al., 2023a）。在这项⼯作中，我们引⼊了FP8混合精度训练框架，并⾸次验证其在极⼤规模模型上的有效性。通过对FP8计算和存储的⽀持，我们实现了加速训练和减少GPU内存使⽤。⾄于训练框架，我们设计了DualPipe算法以实现⾼效的管道并⾏性，该算法具有更少的管道⽓泡，并通过计算-通信重叠在训练过程中隐藏了⼤部分通信。这种重叠确保了，随着模型的进⼀步扩展，只要我们保持恒定的计算与通信⽐率，我们仍然可以在节点之间使⽤细粒度专家，同时实现接近零的全到全通信开销。此外，我们还开发了⾼效的跨节点全到全通信内核，以充分利⽤InfiniBand (IB)和NVLink带宽。此外，我们还精⼼优化了内存占⽤，使得在不使⽤昂贵的张量并⾏的情况下训练DeepSeek-V3成为可能。通过结合这些努⼒，我们实现了⾼训练效率。在预训练期间，我们在14.8T⾼质量和多样化的标记上训练DeepSeek-V3。预训练过程⾮常稳定。在整个训练过程中，我们没有遇到任何不可恢复的损失峰值，也不需要回滚。接下来，我们对DeepSeek-V3进⾏两阶段的上下⽂⻓度扩展。在第⼀阶段，最⼤上下⽂⻓度扩展到32K，在第⼆阶段，进⼀步扩展到128K。随后，我们进⾏后训练，包括对DeepSeek-V3基础模型的监督微调（SFT）和强化学习（RL），以使其与⼈类偏好对⻬，并进⼀步释放其潜⼒。在后训练阶段，我们从DeepSeekR1系列模型中提炼推理能⼒，同时仔细保持模型准确性之间的平衡。我们从DeepSeekR1系列模型中提炼推理能⼒表1 | DeepSeek-V3的训练成本，假设H800的租赁价格为每个GPU⼩时2美元。和⽣成⻓度。我们在⼀系列综合基准上评估了DeepSeek-V3。尽管其训练成本经济，但全⾯评估显示，DeepSeek-V3-Base已成为⽬前可⽤的最强开源基础模型，特别是在代码和数学⽅⾯。其聊天版本也优于其他开源模型，并在⼀系列标准和开放式基准上达到了与领先的闭源模型（包括GPT-4o和Claude-3.5-Sonnet）相当的性能。最后，我们再次强调DeepSeek-V3的经济训练成本，如表1所示，这是通过我们优化的算法、框架和硬件的共同设计实现的。在预训练阶段，训练DeepSeek-V3每万亿个标记仅需180K H800 GPU⼩时，即在我们拥有2048个H800 GPU的集群上仅需3.7天。因此，我们的预训练阶段在不到两个⽉的时间内完成，耗时2664K GPU⼩时。结合119K GPU⼩时⽤于上下⽂⻓度扩展和5K GPU⼩时⽤于后训练，DeepSeek-V3的完整训练仅需2.788M GPU⼩时。假设H800 GPU的租赁价格为每GPU⼩时2美元，我们的总训练成本仅为557.6万美元。请注意，上述成本仅包括DeepSeek-V3的官⽅训练，不包括与先前研究和架构、算法或数据的消融实验相关的成本。我们的主要贡献包括：架构：创新的负载均衡策略和训练⽬标 •在DeepSeek-V2⾼效架构的基础上，我们开创了⼀种⽆辅助损失的负载均衡策略，最⼩化因促进负载均衡⽽导致的性能下降。•我们研究了⼀种多标记预测（MTP）⽬标，并证明它对模型性能有益。它还可以⽤于推测解码以加速推理。预训练：迈向终极训练效率 •我们设计了⼀个FP8混合精度训练框架，并⾸次验证了FP8训练在极⼤规模模型上的可⾏性和有效性。•通过算法、框架和硬件的共同设计，我们克服了跨节点MoE训练中的通信瓶颈，实现了近乎完全的计算与通信重叠。这显著提⾼了我们的训练效率并降低了训练成本，使我们能够在没有额外开销的情况下进⼀步扩⼤模型规模。 •以仅2.664M H800 GPU⼩时的经济成本，我们在14.8T标记上完成了DeepSeek-V3的预训练，产⽣了⽬前最强的开源基础模型。预训练后的后续训练阶段仅需0.1M GPU⼩时。后训练：来⾃DeepSeek-R1的知识蒸馏 •我们引⼊了⼀种创新的⽅法，将推理能⼒从⻓链思维（CoT）模型中提炼出来，特别是从DeepSeek R1系列模型中的⼀个，转化为标准LLMs，尤其是DeepSeek-V3。我们的流程优雅地结合了将R1的验证和反思模式引⼊DeepSeek-V3，并显著提⾼其推理性能。同时，我们还控制DeepSeek-V3的输出⻛格和⻓度。核⼼评估结果摘要 •知识：（1）在教育基准测试如MMLU、MMLU-Pro和GPQA上，DeepSeek-V3的表现优于所有其他开源模型，在MMLU上获得88.5分，在MMLU-Pro上获得75.9分，在GPQA上获得59.1分。它的表现与领先的闭源模型如GPT-4o和Claude-Sonnet-3.5相当，缩⼩了这⼀领域开源模型与闭源模型之间的差距。（2）在事实性基准测试中，DeepSeek-V3在SimpleQA和中⽂SimpleQA上表现出⾊，成为开源模型中的佼佼者。尽管在英语事实知识（SimpleQA）上落后于GPT-4o和Claude-Sonnet-3.5，但在中⽂事实知识（中⽂SimpleQA）上超越了这些模型，突显了其在中⽂事实知识⽅⾯的优势。 •代码、数学和推理：（1）DeepSeek-V3在所有⾮⻓链思维的开源和闭源模型中，在与数学相关的基准测试中达到了最先进的性能。值得注意的是，它在特定基准测试（如MATH-500）上甚⾄超越了o1-preview，展示了其强⼤的数学推理能⼒。（2）在与编码相关的任务中，DeepSeek-V3成为编码竞赛基准测试（如LiveCodeBench）中表现最好的模型，巩固了其在该领域的领先地位。在与⼯程相关的任务中，虽然DeepSeek-V3的表现略低于Claude-Sonnet-3.5，但仍然以显著的优势超越了所有其他模型，展示了其在各种技术基准测试中的竞争⼒。在本⽂的其余部分，我们⾸先详细介绍我们的DeepSeek-V3模型架构（第2节）。随后，我们介绍我们的基础设施，包括我们的计算集群、训练框架、对FP8训练的⽀持、推理部署策略以及我们对未来硬件设计的建议。接下来，我们描述我们的预训练过程，包括训练数据的构建、超参数设置、⻓上下⽂扩展技术、相关评估以及⼀些讨论（第4节）。之后，我们讨论我们在后训练⽅⾯的努⼒，包括监督微调（SFT）、强化学习（RL）、相应的评估和讨论（第5节）。最后，我们总结这项⼯作，讨论DeepSeek-V3的现有局限性，并提出未来研究的潜在⽅向（第6节）。 2.架构我们⾸先介绍DeepSeek-V3的基本架构，其特点是多头潜在注意⼒（MLA）（DeepSeek-AI，2024c）⽤于⾼效推理，以及DeepSeekMoE（Dai等，2024）⽤于经济训练。然后，我们提出了⼀种多标记预测（MTP）训练⽬标，我们观察到它能够增强在评估基准上的整体性能。对于其他未明确提及的细节，DeepSeek-V3遵循DeepSeekV2（DeepSeek-AI，2024c）的设置。 2.1.基本架构 DeepSeek-V3的基本架构仍然在Transformer（Vaswani等，2017）框架内。为了⾼效推理和经济训练，DeepSeek-V3还采⽤了MLA和

点击免费查看完整报告

你可能感兴趣

arXiv-DeepSeekV3 技术报告

核心观点

关键数据

研究结论

你可能感兴趣

捷荣技术：2022年一季度报告

鼎汉技术：2023年一季度报告

嘉戎技术：2023年一季度报告

锦富技术：2022年一季度报告

立昂技术：2022年一季度报告