您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [deepseek]:DeepSeek - V3 科技报告(汉) - 发现报告

DeepSeek - V3 科技报告(汉)

信息技术 2024-12-30 - deepseek Hallam贾文强
报告封面

DeepSeek - AI research @ deepseek. com Abstract 我们呈现了DeepSeek-V3,这是一个强大的混合专家(Mixture-of-Experts, MoE)语言模型,总参数量为671B,每token激活参数量为37B。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力(Multi-head Latent Attention, MLA)和DeepSeekMoE架构,这些架构已在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3率先提出了一种无辅助损失的负载均衡策略,并设置了多token预测训练目标以提升性能。我们首先对DeepSeek-V3进行了14.8万亿个多样且高质量的tokens的预训练,随后进行了监督微调和强化学习阶段,以充分利用其能力。全面的评估结果显示,DeepSeek-V3在多项指标上优于其他开源模型,并且其性能可与领先的闭源模型相媲美。尽管表现优异,但DeepSeek-V3仅需2.788M H800 GPU小时即可完成整个训练过程。此外,其训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或进行任何回滚操作。https: / / github. com / deepseek - ai / DeepSeek - V3 模型检查点可在. Contents 1 Introduction 2 体系结构 4 预培训 4.5. 3 批量明智的负载平衡 VS. 顺序明智的负载平衡......... 27 6 结论、局限性和未来方向 35 C. 16B 基于 Aux 损失和 Aux 无损失模型的专家专业化模式 48 1. Introduction 在近年来,大型语言模型(LLMs)经历了快速迭代和进化(Anthropic, 2024;Google, 2024;OpenAI, 2024a),逐步缩小与通用人工智能(AGI)的差距。除了闭源模型外,开源模型,包括DeepSeek系列(DeepSeek-AI, 2024a,b,c;Guo et al., 2024)、LLaMA系列(AI@Meta, 2024a,b;Touvron et al., 2023a,b)、Qwen系列(Qwen, 2023, 2024a,b)和Mistral系列(Jiang et al., 2023;Mistral, 2024),也在不断取得显著进展,努力缩小与闭源模型之间的差距。为进一步提升开源模型的能力,我们扩大了模型规模,并引入了DeepSeek-V3,这是一个具有671亿参数的大规模混合专家(MoE)模型,其中每个令牌激活了37亿个参数。 以前瞻性的视角为导向,我们持续致力于模型性能的强大和经济成本的控制。因此,在架构方面,DeepSeek-V3 仍然采用多头潜在注意力(MLA)(DeepSeek-AI, 2024c)进行高效推理,并采用 DeepSeekMoE(Dai et al., 2024)进行成本效益更高的训练。这两种架构已在 DeepSeek-V2(DeepSeek-AI, 2024c)中得到验证,展示了它们在保持稳健模型性能的同时实现高效训练和推理的能力。除了基本架构之外,我们还实施了两种额外策略以进一步增强模型能力。首先,DeepSeek-V3 引入了一种无辅助损失的负载均衡策略(Wang et al., 2024a),旨在减轻为了促进负载均衡而可能对模型性能产生的负面影响。其次,DeepSeek-V3 采用了多标记预测训练目标,我们观察到这有助于在评估基准上提高整体性能。 为了实现高效的训练,我们支持FP8混合精度训练,并对训练框架进行全面优化。低精度训练已成为高效训练的一种有前景的解决方案(Dettmers等,2022;Kalamkar等,2019;Narang等,2017;Peng等,2023b),其发展与硬件能力的进步密切相关(Luo等,2024;Micikevicius等,2022;Rouhani等,2023a)。在此项工作中,我们引入了FP8混合精度训练框架,并首次在极大规模模型上验证了其有效性。通过支持FP8计算和存储,我们实现了加速训练并减少了GPU内存使用量。对于训练框架,我们设计了DualPipe算法以实现高效的流水线并行,在训练过程中通过计算与通信重叠来减少流水线空洞并隐藏大部分通信。这种重叠确保了随着模型进一步扩展,只要保持计算与通信比例恒定,我们仍然可以在节点间使用细粒度专家团队,同时实现接近零的全对全通信开销。此外,我们还开发了高效的跨节点全对全通信内核,以充分利用InfiniBand(IB)和NVLink带宽。进一步地,我们仔细优化了内存占用,使得无需使用昂贵的张量并行即可训练DeepSeek-V3。结合这些努力,我们实现了高效率的训练。 在预训练阶段,我们使用14.8万亿个高质量且多样化的token对DeepSeek-V3进行训练。预训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失突增,也无需回滚。接下来,我们对DeepSeek-V3进行了两阶段的上下文长度扩展。在第一阶段,最大上下文长度扩展至32K;在第二阶段,进一步扩展至128K。随后,我们进行了后续训练,包括在DeepSeek-V3基模型上进行监督微调(SFT)和强化学习(RL),以使其与人类偏好相匹配,并进一步释放其潜力。在后续训练阶段,我们从DeepSeek-R1系列模型中提炼出推理能力,并同时谨慎地保持模型准确性和平衡之间的平衡。 表 1 | DeepSeek - V3 的培训成本 , 假设 H800 的租赁价格为每 GPU 小时 2 美元。 和世代长度。 我们对DeepSeek-V3进行了全面的基准测试评估。尽管其训练成本相对较低,综合评估结果显示,DeepSeek-V3-Base已成为当前可用的最佳开源基础模型,尤其是在代码和数学领域。其聊天版本也优于其他开源模型,并在一系列标准和开放性基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先商用模型相当的性能。 最后,我们再次强调DeepSeek-V3的经济训练成本,如表1中所示,这是通过我们优化的算法、框架和硬件协同设计实现的。在预训练阶段,将DeepSeek-V3训练在每万亿个令牌上仅需180K H800 GPU小时,即在我们的集群中使用2048个H800 GPU时,大约需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,并消耗了2664K GPU小时。结合上下文长度扩展所需的119K GPU小时和后处理所需的5K GPU小时,DeepSeek-V3的完整训练总共只需要2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,我们的总训练成本仅为5.576M美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,未包括先前研究和针对架构、算法或数据进行的消融实验的成本。 我们的主要贡献包括 : 架构 : 创新的负载均衡策略和培训目标 • 在DeepSeek-V2高效架构的基础上,我们开创了一种无辅助损失的负载均衡策略,该策略通过减少鼓励负载均衡所引起的性能下降来优化性能。• 我们研究了多令牌预测(MTP)目标,并证明其对模型性能有益,同时也可以用于推测性解码以加速推理过程。 预培训 : 迈向终极培训效率 • 我们设计了一个FP8混合精度训练框架,并首次验证了在极大规模模型上进行FP8训练的可行性和有效性。 • 通过算法、框架和硬件的协同设计,我们克服了跨节点MoE训练中的通信瓶颈,实现了近乎完全的计算-通信重叠。这显著提高了我们的训练效率并降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩大模型规模。• 在仅经济成本2.664M H800 GPU小时的情况下,我们完成了DeepSeek-V3在14.8T个令牌 上的预训练,产生了当前最强的开源基础模型。后续的训练阶段仅需0.1M GPU小时。 后期培训 : DeepSeek - R1 的知识提炼 • 我们引入了一种创新的方法论,从长链思考(Long-Chain-of-Thought, CoT)模型,特别是DeepSeek R1系列模型中提炼推理能力,并将其整合到标准的大语言模型(LLMs),尤其是DeepSeek-V3中。我们的流程优雅地结合了这些技术。 R1的验证和反思模式融入DeepSeek-V3中,显著提升了其推理性能。同时,我们还对DeepSeek-V3的输出风格和长度进行了控制。 核心评价结果汇总 •知识: (1) 在教育基准测试(如MMLU、MMLU-Pro和GPQA)中,DeepSeek-V3超越了所有其他开源模型,分别在MMLU上取得88.5分、在MMLU-Pro上取得75.9分、在GPQA上取得59.1分。其性能与领先的闭源模型GPT-4o和Claude-Sonnet-3.5相当,缩小了开源与闭源模型之间的差距。 (2) 在事实性基准测试中,DeepSeek-V3在SimpleQA和中文SimpleQA两个方面均优于其他开源模型。尽管在英语事实知识(SimpleQA)方面落后于GPT-4o和Claude-Sonnet-3.5,但在中文事实知识(中文SimpleQA)方面则超过了这些模型,突显了其在中文事实知识方面的优势。代码、数学和推理:(1) DeepSeek - V3 在上实现了最先进的性能 与所有非长时CoT开源和闭源模型相比,在相关数学基准测试中表现优异。值得注意的是,它甚至在特定基准测试(如MATH-500)上超越了o1-preview,展示了其稳健的数学推理能力。(2)在编程相关的任务中,DeepSeek-V3 在编码竞赛基准测试(如LiveCodeBench)中表现出色,巩固了其在该领域的领先地位。对于工程相关的任务,虽然DeepSeek-V3 在某些方面略低于Claude-Sonnet-3.5,但仍然显著优于其他所有模型,展示了其在各种技术基准测试中的竞争力。 在本文的其余部分,我们首先详细介绍了我们的DeepSeek-V3模型架构(第2节)。随后,我们介绍了我们的基础设施,包括计算集群、训练框架、FP8训练支持、推理部署策略以及对未来硬件设计的建议。接着,我们描述了我们的预训练过程,包括训练数据的构建、超参数设置、长上下文扩展技术、相关评估以及一些讨论(第4节)。之后,我们讨论了我们在后训练阶段的努力,包括监督微调(SFT)、强化学习(RL)及其相应的评估和讨论(第5节)。最后,我们总结了这项工作,讨论了DeepSeek-V3现有的局限性,并提出了未来研究的潜在方向(第6节)。 2. 建筑 我们首先介绍了DeepSeek-V3的基本架构,该架构包括多头潜在注意力(MLA)(DeepSeek-AI, 2024c),以实现高效的推理,并采用DeepSeekMoE(Dai et al., 2024)进行经济高效的训练。随后,我们呈现了一种多令牌预测(MTP)训练目标,我们观察到这种目标可以提高评估基准上的整体性能。对于其他未明确提及的细节,DeepSeek-V3遵循DeepSeek-V2的设置(DeepSeek-AI, 2024c)。 2.1. 基本架构 DeepSeek-V3 的基本架构仍然基于 Transformer(Vaswani 等,2017)框架。为了实现高效的推理和经济的训练,DeepSeek-V3 还采用了 MLA 和 DeepSeekMoE,这些方法已经在 DeepSeek-V2 中得到了充分验证。与 DeepSeek-V2 相比,唯一不同的是我们额外引入了一种无辅助损失的负载均衡机制。 图 2 | DeepSeek - V3 的基本架构的图示。在 DeepSeek - V2 之后 , 我们采用 MLA 和 DeepSeekMoE 进行高效推理和经济训练。 策略(Wang等,2024a)用于减轻为确保