行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

DeepSeek 模型： V1 V2 V3 R1 - Zero

信息技术 2025-02-12 - 肯特州立大学杨春

DeepSeek 模型概述

引言与背景
大型语言模型（LLMs）在推理和决策中发挥着核心作用，但传统模型在效率、专门任务表现和计算成本上存在局限。DeepSeek AI 致力于通过高效架构和专门模型提升 AI 的效率、适应性和领域专业知识，以推动通用人工智能（AGI）发展。DeepSeek 引入了混合专家框架（MoE）、指令跟随和推理优化模型，并通过开源实现扩大了高性能 AI 的可访问性。

相关工作
与 OpenAI GPT-4、Claude 3.5、LLaMA 3.1、Qwen 2.5 和 Gemini 2.0 等模型相比，DeepSeek 模型更侧重于推理能力、计算效率和领域特定优化。例如，Gemini 2.0 强调多模态能力和实时应用，Claude 3.5 注重安全性和伦理对齐，而 DeepSeek 则通过 MoE 架构在保持性能的同时降低推理成本。

DeepSeek 模型及其变体

DeepSeek 7B：参数量为 7B，采用预归一化（pre-norm）和全局查询调整（GQA），上下文窗口长度可调整（4K-32K 标记）。
DeepSeek V2：包含总计 2360 亿参数，集成 MLA 和 MoE 框架，支持 128K 标记上下文长度。
DeepSeek MoE-16B：通过动态路由激活 2 个专家网络中的 2.6 亿参数，推理成本降低 70%。
DeepSeek V3：参数量为 6710 亿，采用稀疏 MoE 架构，每个任务激活 370 亿参数，基于 14.8 万亿标记的多语言语料库预训练。
DeepSeek R1-Zero：通过强化学习（RL）训练，采用组相对策略优化（GRPO），支持迭代自我反思和扩展推理链。
DeepSeek R1：结合 CoT 和 Pro Search 技术，在数学、编程和决策领域提升准确性，并通过排斥抽样方法优化搜索策略。

关键数据与比较

参数量与效率：DeepSeek V3 参数量为 6710 亿，通过 MoE 架构降低内存需求，FP8 精度使内存需求下降 75%。
性能对比：在编程、数学和语言任务上，DeepSeek R1 与专有模型（如 ChatGPT-4）表现相当或更优。
应用场景：DeepSeek 模型适用于医疗诊断、教育、科研和金融等领域，通过领域特定优化提升实用性。

局限性与未来方向

局限性：DeepSeek V3 需要高端硬件，路由和负载平衡存在复杂性，潜在注意力压缩风险影响长上下文理解。
未来方向：将 DeepSeek R1 应用于实际挑战（如医疗、教育、科研），优化计算效率，建立伦理问责标准，并扩展开源生态系统。

结论
DeepSeek 模型通过高效架构和领域特定优化，在推理能力、透明度和成本效益上取得显著进步，推动 AI 技术向实用化、可访问和可持续方向发展。

Fnu Neha肯特州立大学计算机科学系Kent, OH, USA neha @kent. edu Deepshikha Bhati肯特州立大学计算机科学系Kent, OH, USA dbhati@ kent. edu Abstract—先进的人工智能（AI）依赖于能够进行类人推理的系统，而传统的大型语言模型（LLMs）在这方面存在局限性，它们在多步逻辑、抽象概念化和隐含关系推断方面表现不佳。DeepSeek AI 通过高效计算架构解决了这些挑战，包括 DeepSeek 混合专家框架（Mixture-of-Experts, MoE），该框架在保持性能的同时降低了推理成本。DeepSeek v3 是一种针对指令跟随和推理优化的一般用途 LLM，还包括 DeepSeek Coder（代码生成和软件工程）、DeepSeek Math（符号和定量推理）、DeepSeek R1-Zero（纯强化学习，无样本精调）以及 DeepSeek R1，后者专为跨域问题解决设计，只需最少的微调即可。通过开源硬件无关的实现，DeepSeek 扩大了高性能 AI的可访问性。本文概述了 DeepSeek 的架构进步，并将其功能和局限性与当前最先进的 LLM 进行比较。此外，还探讨了其对 AI 研究的影响，并详细讨论了未来工作的潜在方向。索引术语- 人工智能，类似人类的推理， lizes 稀疏激活以减少计算开销 [7]。随后，DeepSeek Coder 作为一系列代码特定模型推出，参数范围从 1B 到33B，旨在简化软件开发工作流程 [8]。DeepSeek Math包含 120B 数学相关标记，用于处理高级数学和符号推理任务 [9]。DeepSeek 还推出了 V2 [10] 和 V3 [11] 系列。V2 实现了多头潜在注意（MLA）以及包含总计 236B 参数（21B 活跃）的 MoE 系统。V3 是一个开源模型，通过优化计算效率，总参数为 671B，每次查询仅激活37B。它在减少资源需求和最小监督数据的情况下表现出色，在复杂推理任务中表现优异。大型语言模型, DeepSeek, DeepSeek 混合专家 (MoE), DeepSeek V3, DeepSeek R1, DeepSeek R1 - Zero I. INTRODUCTION 推理能力，作为人类认知的核心，对于解决问题和做出决策至关重要，并且在人工智能（AI），尤其是大型语言模型（LLMs）如OpenAI的GPT-4.0、Claude 3.5、Llama 3.1、Qwen 2.5和Gemini 2.0 [1]–[5] 的发展中起着核心作用。这些模型通过在大规模数据集中识别统计模式来逼近推理过程，从而推进自然语言处理（NLP）、代码生成和决策支持的发展，并依赖于带有标注数据的监督微调（SFT）。这一过程计算成本高昂，限制了其更广泛的应用。此外，尽管在一般情境下有效，但在专门任务中，这些模型的表现存在不一致性。多模态模型在空间推理和现实世界物理方面存在问题，而AI辅助的代码生成往往产生语法正确但功能有缺陷的代码，需要人工监督。DeepSeek AI成立于2023年，作为一项研究倡议。在2025年，DeepSeek发布了R1 Zero，引入了自我验证、反思以及扩展的思维链（CoTs），这是对研究界的一项重要进步。DeepSeek还推出了R1，专门用于数学、编程和逻辑问题解决，以增强自主决策能力和在研究及企业应用中的精确性[12]。 DeepSeek 开源了一套精简模型，优化用于资源受限环境（如边缘计算平台或低内存系统）的部署。这些模型保持了可扩展性和成本效益，进一步扩大了DeepSeek的应用范围，使其先进的AI技术能够适用于多种不同的应用场景。为了克服现有局限并推进通用人工智能（AGI），我们优先发展专门模型以提高效率、适应性和领域专业知识［6］。2024年，DeepSeek 引入了 DeepSeek Mixture-of- 这篇论文提供了DeepSeek模型的概述，强调了其架构发展和应用，并将其与现有模型进行比较，概述了关键特点。专家 (MoE) ，一种以效率为中心的架构，它 - 进一步采用405B参数和128K token上下文窗口，并通过分组查询注意力机制提高效率。LLaMA 3.1 在编程、逻辑问题解决以及低资源语言任务方面表现出色。与如GPT-4等封闭模型不同，LLaMA 3.1 保持开放权重并免费可供研究和商业使用，但仅限于文本输入。安全措施，如自动化红队测试（一种模拟攻击或从对手角度测试系统的实践）和过滤训练数据，有助于最大限度地减少不 desirable 输出。和局限性。它还讨论了它们的进步对各个领域 AI 未来的潜在影响。论文结构如下：第2节涵盖了相关工作，第3节讨论了DeepSeek模型及其变体，第4节提供了讨论，第5节总结并提出了未来方向。 II. 相关工作近期人工智能的发展推动了专门针对推理、数学问题求解和代码生成的模型的出现，这些模型补充了一般用途的大规模语言模型（LLMs），后者在文本任务方面表现优异，但在数学精确性和结构化问题求解方面存在不足。为了弥合这些差距，AI研究越来越关注增强下一代模型的推理能力和计算效率。 D. Qwen 2.5 Qwen2，在2024年6月发布，是Qwen系列的最新版本，紧随其后的是Qwen1.5（2024年2月发布）和原始的Qwen（2023年8月发布）[4]。Qwen1.5包含至多720亿个参数的模型，强调效率和开源可访问性，而Qwen2则扩展至1100亿个参数，并在推理能力、多语言支持和编程能力方面有所改进。 A. OpenAI GPT OpenAI的GPT-4于2023年3月发布，是一款处理文本和图像的多模态模型[1]。该模型基于变压器架构，在数学推理和语言理解等任务上超过了GPT 3[13, 14]。据估计，其参数量达到1.8万亿，远超GPT 3的1750亿。最初支持上下文窗口为8192个令牌（GPT-4-8K）和32768个令牌（GPT-4-32K）。2023年下半年，GPT-4 Turbo的推出将这一容量扩展至128K个令牌。虽然GPT-4在图像描述和问题解决等任务上表现出色，但模型生成的信息可能会听起来合理但实际上却是错误的或虚构的（幻觉），特别是在医学、法律或技术等领域中。 Qwen2 利用一个 128K 令牌上下文窗口，并通过 YaRN（上下文扩展微调）等创新技术增强，以实现稳定的长上下文处理。在数学推理、代码生成和低资源语言理解等任务中表现优于其前代产品。对齐技术包括 RLHF、直接偏好优化（DPO）以及精心筛选的安全数据集，以减少不理想的响应。 E. 双子座 2.0 Gemini 2.0 是谷歌最新的多模态大语言模型（LLM），基于 1.0 和 1.5 版本，提供了跨文本、图像、音频和视频的更强大的生成式 AI 能力 [5]。Gemini 2.0 Flash 初始作为实验性变体推出，相比其前代产品 Gemini 1.5 Flash，在速度和效率上取得了显著提升，同时保持了高质量。它支持代理型 AI 和原生工具使用，使模型能够调用外部功能（如 Google 搜索和地图）并集成流式数据以扩展实时应用。通过在诸如数学、代码生成和多语言音频输出等任务中实现更好的性能，并结合增强的能量效率，Gemini 2.0 的目标是为开发者和最终用户提供全面且成本效益高的 AI 解决方案。 B. 克劳德 3.5 Claude 3.5，在2024年发布，是Anthropic语言模型家族的最新进展[2]。它在前一代版本的基础上，强调了安全、对齐和性能，改进了推理能力、语言理解能力和处理复杂任务（如文本和代码生成）的能力。该模型拥有约250亿个参数，相比早期模型在准确性和伦理对齐方面表现更优。它支持最多20万个标记的扩展上下文，能够更好地处理大量输入。通过增强学习（基于人类反馈的强化学习，RLHF）和宪法AI技术的提升，它减少了不 desirable 的响应、偏见，并更好地与人类意图保持一致。Claude 3.5 在编码和科学推理等专业领域表现出色，具有更高的透明度和伦理保障。然而，在接近上下文限制的复杂或模棱两可的输入中，其性能可能会有所下降。 III. Deepseek 及其变体 DeepSeek 模型建立在基于变压器的档案结构上，优化了分组查询注意（ GQA) 和闪光注意 2[6]. GQA 通过将查询分组以共享关键值头部来平衡效率和质量。FlashAttention 2 是一种计算感知算法，通过切片和重计算优化 GPU 内存使用。这些改进减少了内存开销并提高了推理速度。核心注意力机制遵循以下公式： C. LLama 3.1 LLaMA 3.1，在2024年发布，是Meta的LLaMA（大型语言模型Meta AI）家族的最新版本，紧随其后的分别是LLaMA 1（2022年）和LLaMA 2（2023年）[3]。LLaMA 1包含多达650亿个参数，而LLaMA 2则扩展到700亿个参数，并引入了较小的变体（7B和13B），以增强泛化能力和多语言能力。LLaMA 3.1在此基础上进一步发展， QKTV(Q, K, V) =√AttentionsoftmaxdkQK V其中(查询) ，(键) 和(值) 是投影d来自输入嵌入，并且是缩放因子。k DeepSeek 中的位置编码通过职位嵌入(RoPE)，which embeds相对位置信息通过旋转变换嵌入到查询和键中。这使得处理极其长的标记序列（最多可达20万个标记）成为可能，克服了传统变压器在处理长期上下文任务时的限制。基于编译器反馈和真实标签的奖励模型；第二阶段旨在评估帮助性、安全性和规则合规性，利用了三个从人类偏好和手动编程中开发的奖励模型。 D. DeepSeek V3 DeepSeek V3 在大型语言模型（LLM）中代表了一个重要的升级。它基于一个包含14.8万亿个令牌的多语言语料库进行预训练，并采用了一个由6710亿个参数组成的稀疏MoE架构，每个任务激活370亿个参数 [11]。这种设计通过动态分配资源以满足特定任务的需求来提高计算效率，从而降低运营成本。 A. DeepSeek 7B DeepSeek 7B，一个参数量为7B的模型，设计用于处理诸如推理、编程和文本生成等通用任务。该模型采用预归一化（pre-norm）、解码器仅（decoder-only）Transformer架构，并在其前向传播层中使用RMSNorm归一化和SwiGLU激活函数。模型包含相对位置编码（RoPE）和全局查询调整（GQA），共有30层Transformer、32个注意力头以及4096的隐藏维度，上下文窗口长度范围从4K到32K个标记，可通过RoPE进行调整。DeepSeekChat，一个参数量更大的变体，拥有67B参数，包括95层Transformer、64个注意力头以及8192的隐藏维度。该模型包括一个路由系统，其中包含1个共享专家和256个路由专家，具备动态偏差调整功能以确保专家利用的均衡性，从而提高可扩展性和可靠性。此外，多令牌预测（MTP）增强了模型在复杂语言和推理任务中的能力。尽管架构先进，DeepSeek V3仍面临若干局限性： B. DeepSeek MoE - 16B DeepSeek MoE-16B，一个包含16亿参数的MoE模型，通过动态路由输入通过16个专家网络中的2个，激活每token仅2.6亿参数[7]。这种稀疏激活相比相似规模的密集模型降低了70%的推理成本，并保持了稳健的表现。它基于涵盖代码、数学和通用文本的多样化数据集进行预训练，重点关注高质量数据和专家专业化，以支持如代码生成和数学推理等任务。表I展示了其他基于DeepSeek的专门变体。计算和硬件需求： 1)671B 参数需要高端硬件，限制了资源受限的用户的可

点击免费查看完整报告