行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

deepseek技术入门

信息技术 2025-03-03 Booz Allen Hamilton Mascower

概述

DeepSeek 是一家中国 AI 创业公司，致力于开发大型语言模型（LLM），其最新模型 DeepSeek-R1（671B 参数）因其性能与 OpenAI、Anthropic 和 Meta 的 LLM 相当，但成本和训练时间更少而受到关注。DeepSeek-R1 的开发经历了多阶段，包括 DeepSeek-MoE、DeepSeekMath 和 DeepSeek-V3，最终形成了高效的训练和推理方法。

核心技术

混合专家模型（MoE）：DeepSeek-R1 采用 MoE 架构，通过选择性地激活“专家”来减少计算量，同时保持性能。模型使用 GShard 稀疏门控和负载均衡技术，确保高效利用专家并处理所有 token。
基于强化学习的微调（RL）：DeepSeek-R1 使用 Group Relative Policy Optimization (GRPO) 替代传统的监督微调（SFT），无需价值模型，降低了内存和计算复杂度。GRPO 使用基于规则的奖励系统，通过奖励准确率、格式和语言一致性来训练模型。
双管道系统：DeepSeek 引入双管道系统，通过并行 GPU 调度和工作负载管理，实现前向和反向传递的同时进行，减少空闲计算时间，优化 GPU 利用率，加速训练和推理。

性能评估

基准测试：DeepSeek-R1 在 21 个基准测试中进行了评估，涵盖英语理解、编码、数学和中文，并与 Claude-3.5-Sonnet-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217 进行了比较。结果显示，DeepSeek-R1 在数学、逻辑和编码任务中表现出色，超过 OpenAI-o1-mini 和 Claude-3.5。
蒸馏模型：DeepSeek-R1 被蒸馏成更小的模型，如 Qwen 和 Llama，这些模型在数学、编码和推理任务中也表现出色，优于 OpenAI-o1-mini。

成本和效率

训练成本：DeepSeek-R1 的训练成本公开为 600 万美元，但这是基于旧的 DeepSeek-V3 基础模型，并非 DeepSeek-R1 本身。实际成本难以验证，且忽略了实验、开发和基础设施成本。
计算效率：DeepSeek-R1 使用 FP8 精度训练，并避免使用张量并行，从而降低了计算成本。此外，DeepSeek 利用自己的 GPU 集群进行训练，有效利用 GPU 空闲时间，进一步降低成本。

数据和透明度

数据来源：DeepSeek-R1 的训练数据来源和微调方法缺乏透明度，其数据集的具体细节未公开。
安全性和对齐：DeepSeek-R1 使用 RL 来提高推理能力，并使用安全反馈进行安全性和对齐训练，但具体方法和评估标准未公开。

结论

DeepSeek-R1 代表了 AI 效率方面的重大进步，通过优化训练和推理，实现了高效的 AI 开发。其 MoE 架构、RL 微调和双管道系统等技术创新，为 LLM 开发提供了新的思路。然而，DeepSeek-R1 在数据透明度和安全性方面仍存在不足，其性能和效率的可持续性仍需进一步验证。

目录深度求索-R1 基于人类反馈的强化学习.........................................7结论。 ............................................................................................................................................16数据窃取指控及整体情况..................................................................15性能...............................................................................................................................................12作者们...................................................................................................................................................16概述..................................................................................................................................................2首秀摘要。 ............................................................................................................................3声明..........................................................................................................................................................4深搜模型................................................................................................................................5建筑。 ...........................................................................................................................................6蒸馏和小模型......................................................................................................9计算。 .........................................................................................................................................11技术主张评估。 .................................................................................................14成本.................................................................................................................................................11 进度安排....................................................................................................................................11 工作组合..............................................................................................................11培训成本.............................................................................................................................14 基准................................................................................................................................14Pipeline............................................................................................................................................7 强化学习。 ...........................................................................................................8 概述 • 深书是中国的一家AI初创公司，领导了一项资金充足的计划，利用一个大型团队（100人以上）的资深开发人员来开发先进的大型语言模型（LLM）。公众的兴趣源于他们最新发布的模型免费提供，公司声称其性能与OpenAI、Anthropic和Meta LLM相当，但价格和训练时间只是其中的一部分。 • “DeepSeek”与多个同名的算法混淆在一起，但媒体关注的焦点是DeepSeek-R1 LLM——一个671B模型，它通过多阶段流水线（强化学习（RL）、监督微调（SFT）以及可能的知识蒸馏方法）进行训练，以从更大的教师模型中学习。 • 宣传的DeepSeek的培训成本为600万美元，这是基于旧的DeepSeek-V3基础模型得出的。验证成本并不容易，而且表面上来看，这很可能是一个单一、纯净的训练运行快照。他们的论文对此做了明确说明，但在那些未能考虑重大实验、前期开发和基础设施成本的反应中，这一点被忽视了。 • 他们的训练过程应用了多种非DeepSeek发布的关于人工智能（AI）、优化和硬件创新的研究成果，以训练一个计算基础设施较少的大型语言模型。DeepSeek对这些方法的修改、改进和组装是有意义的，但似乎没有出现任何单一的非凡发展。 • 关键细节缺失，尤其是在训练流程、用于微调模型的数据集以及驱动效率的技术实现方面。例如，OpenAI声称DeepSeek可能通过蒸馏不当获取了他们的知识产权，违反了公司的服务条款。与此同时，DeepSeek的透明度远超绝大多数西方实验室，只有少数（主要是非营利组织，如EleutherAI和艾伦人工智能研究所）披露得更多。首次评测摘要 DeepSeek 通过将训练和推理优化为一个可扩展的 AI 开发管道，代表了 AI 效率的重要进步。通过结合专家混合（MoE）、基于强化学习的微调、先进的蒸馏技术以及图形处理器（GPU）级别的工程，DeepSeek 已经展示出了一种可行的替代方案，以应对其他大型语言模型（LLM）提供者使用的资源密集型训练方法。在评估DeepSeek的整体性能时，广泛引用的600万美元培训成本仅适用于DeepSeek-V3，而不是更先进的DeepSeek-R1。然而，其效率创新仍然挑战了需要大量资本投资来开发最先进的AI模型的假设。DeepSeek的推理效率主张得到了其基于MoE的选择性激活的支持，与GPT-4这样的密集模型相比，这大大降低了功耗和内存需求。性能基准突出了DeepSeek在推理、数学和编码任务中的优势，在多个结构化问题解决测试中，其结果超过了OpenAI-o1-mini和Claude-3.5。尽管如此，其通用对话能力仍未经验证。然而，DeepSeek在训练数据来源、微调方法和完整基础设施细节方面缺乏透明度，这引发对其效率主张可重复性的质疑。 • MoE：DeepSeek的MoE为每个token选择性地激活专门的“专家”，在保持性能的同时减少计算开销。它优化了GShard稀疏门控和负载均衡技术，以防止低效性，确保在训练期间高效利用专家并处理所有token。 • 强化学习和群体相对策略优化（GRPO）：DeepSeek的训练流程用GRPO替换了传统的SFT，GRPO是一种强化学习变体，它消除了对单独的价值模型的需求，减少了内存开销和计算复杂度。这使得DeepSeek能够在不需要大量人工标注的排序数据集的情况下改进推理，这是其他大型语言模型中一个成本高昂的步骤。 • 双管道系统：DeepSeek 引入了一种并行化 GPU 调度和任务管理工作框架，支持在训练期间同时进行前向和后向传递。这项创新减少了闲置计算时间，优化了 GPU 利用率，并加速了训练和推理，使得 DeepSeek 的模型开发管道显著更高效。总之，DeepSeek的出现并不仅仅关乎一个模型——它关乎重塑人工智能开发的游戏规则。DeepSeek在算法、框架和硬件方面的效率结合至关重要。如果其方法被证明是可持续的，DeepSeek的模型可能会使人工智能开发摆脱对超大规模云的依赖，使高性能人工智能更加经济、去中心化，并在各行各业中更容易获得。无论其方法是否真正可持续，它已经迫使人工智能行业重新思考模型训练、优化和部署的经济性。 • 蒸馏技术：DeepSeek已成功将其大型模型的推理和计算能力蒸馏到更小、高性能的变体中，例如Qwen模型（1.5B到70B参数）。这些蒸馏模型在数学、编程和推理任务中优于OpenAI-o1-mini和Claude-3.5，证明高效率并不一定需要大规模架构。这种方法允许更小、更具成本效益的AI模型，同时保留强大的推理能力。声明对那些经过精心设计以启动名为“冷启动”的四阶段过程的监督样本。DeepSeek-R1已经在涵盖英语理解、编程、数学和中文的21个基准上进行了评估。他们将自己的结果与Claude-3.5-Sonnet-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217进行了比较（见表1）。然而，DeepSeek-R1专注于模型推理，用于诸如编程、数学和逻辑推理等任务，其中问题定义明确，解决方案可通过另一台计算机程序进行验证。深度寻求声称，仅用600万美元的预算，其性能即可与OpenAI等大型专有LLM相媲美，但成本和计算量却少得多。从科学角度来说，它声称深度寻求-R1-Zero LLM是首个公开研究，验证了LLM在预训练后仅通过RL即可训练。这是成本关键的，因为深度寻求-R1-Zero算法可以在无需SFT的情况下匹配某些LLM的性能，而SFT是一个瓶颈。绕过SFT使深度寻求能够在不通过昂贵的手动示例显式教授模型的情况下进行训练。除了其他算法、框架和硬件创新之外，这一点使得深度寻求能够更快地训

点击免费查看完整报告

deepseek技术入门

概述

核心技术

性能评估

成本和效率

数据和透明度

结论

你可能感兴趣

《DeepSeek入门宝典》第1册·技术解析篇

DeepSeek指导手册-从入门到精通

DeepSeek：7大场景+50大案例+全套提示词（从入门到精通）

DeepSeek保姆级入门指令：32个高阶提效指令助力开发海量优质客户

秋叶《DeepSeek零基础入门手册》7大热点+全套提示词

DeepSeek 从入门到精通：7大场景+50大案例+全套提示词

DeepSeek入门宝典：第4册-个人使用篇

DeepSeek：从入门到精通

DeepSeek快速入门指北

2025年DeepSeek 7大场景+50大案例+全套提示词从入门到精通干货

deepseek技术入门

你可能感兴趣

《DeepSeek入门宝典》第1册·技术解析篇

DeepSeek指导手册-从入门到精通

DeepSeek：7大场景+50大案例+全套提示词（从入门到精通）

DeepSeek保姆级入门指令：32个高阶提效指令助力开发海量优质客户

秋叶《DeepSeek零基础入门手册》7大热点+全套提示词

DeepSeek 从入门到精通：7大场景+50大案例+全套提示词

DeepSeek入门宝典：第4册-个人使用篇

DeepSeek：从入门到精通

DeepSeek快速入门指北

2025年DeepSeek 7大场景+50大案例+全套提示词 从入门到精通干货

2025年DeepSeek 7大场景+50大案例+全套提示词从入门到精通干货