您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [肯特州立大学]:DeepSeek 模型 : V1 V2 V3 R1 - Zero - 发现报告

DeepSeek 模型 : V1 V2 V3 R1 - Zero

信息技术 2025-02-12 - 肯特州立大学 杨春
报告封面

Fnu Neha肯特州立大学计算机科学系Kent, OH, USA neha @kent. edu Deepshikha Bhati肯特州立大学计算机科学系Kent, OH, USA dbhati@ kent. edu Abstract—先进的人工智能(AI)依赖于能够进行类人推理的系统,而传统的大型语言模型(LLMs)在这方面存在局限性,它们在多步逻辑、抽象概念化和隐含关系推断方面表现不佳。DeepSeek AI 通过高效计算架构解决了这些挑战,包括 DeepSeek 混合专家框架(Mixture-of-Experts, MoE),该框架在保持性能的同时降低了推理成本。DeepSeek v3 是一种针对指令跟随和推理优化的一般用途 LLM,还包括 DeepSeek Coder(代码生成和软件工程)、DeepSeek Math(符号和定量推理)、DeepSeek R1-Zero(纯强化学习,无样本精调)以及 DeepSeek R1,后者专为跨域问题解决设计,只需最少的微调即可。通过开源硬件无关的实现,DeepSeek 扩大了高性能 AI的可访问性。本文概述了 DeepSeek 的架构进步,并将其功能和局限性与当前最先进的 LLM 进行比较。此外,还探讨了其对 AI 研究的影响,并详细讨论了未来工作的潜在方向。索引术语- 人工智能 , 类似人类的推理 , lizes 稀疏激活以减少计算开销 [7]。随后,DeepSeek Coder 作为一系列代码特定模型推出,参数范围从 1B 到33B,旨在简化软件开发工作流程 [8]。DeepSeek Math包含 120B 数学相关标记,用于处理高级数学和符号推理任务 [9]。DeepSeek 还推出了 V2 [10] 和 V3 [11] 系列。V2 实现了多头潜在注意(MLA)以及包含总计 236B 参数(21B 活跃)的 MoE 系统。V3 是一个开源模型,通过优化计算效率,总参数为 671B,每次查询仅激活37B。它在减少资源需求和最小监督数据的情况下表现出色,在复杂推理任务中表现优异。 大型语言模型, DeepSeek, DeepSeek 混合专家 (MoE), DeepSeek V3, DeepSeek R1, DeepSeek R1 - Zero I. INTRODUCTION 推理能力,作为人类认知的核心,对于解决问题和做出决策至关重要,并且在人工智能(AI),尤其是大型语言模型(LLMs)如OpenAI的GPT-4.0、Claude 3.5、Llama 3.1、Qwen 2.5和Gemini 2.0 [1]–[5] 的发展中起着核心作用。这些模型通过在大规模数据集中识别统计模式来逼近推理过程,从而推进自然语言处理(NLP)、代码生成和决策支持的发展,并依赖于带有标注数据的监督微调(SFT)。这一过程计算成本高昂,限制了其更广泛的应用。此外,尽管在一般情境下有效,但在专门任务中,这些模型的表现存在不一致性。多模态模型在空间推理和现实世界物理方面存在问题,而AI辅助的代码生成往往产生语法正确但功能有缺陷的代码,需要人工监督。DeepSeek AI成立于2023年,作为一项研究倡议。 在2025年,DeepSeek发布了R1 Zero,引入了自我验证、反思以及扩展的思维链(CoTs),这是对研究界的一项重要进步。DeepSeek还推出了R1,专门用于数学、编程和逻辑问题解决,以增强自主决策能力和在研究及企业应用中的精确性[12]。 DeepSeek 开源了一套精简模型,优化用于资源受限环境(如边缘计算平台或低内存系统)的部署。这些模型保持了可扩展性和成本效益,进一步扩大了DeepSeek的应用范围,使其先进的AI技术能够适用于多种不同的应用场景。 为了克服现有局限并推进通用人工智能(AGI),我们优先发展专门模型以提高效率、适应性和领域专业知识[6]。2024年,DeepSeek 引入了 DeepSeek Mixture-of- 这篇论文提供了DeepSeek模型的概述,强调了其架构发展和应用,并将其与现有模型进行比较,概述了关键特点。 专家 (MoE) , 一种以效率为中心的架构 , 它 - 进一步采用405B参数和128K token上下文窗口,并通过分组查询注意力机制提高效率。LLaMA 3.1 在编程、逻辑问题解决以及低资源语言任务方面表现出色。与如GPT-4等封闭模型不同,LLaMA 3.1 保持开放权重并免费可供研究和商业使用,但仅限于文本输入。安全措施,如自动化红队测试(一种模拟攻击或从对手角度测试系统的实践)和过滤训练数据,有助于最大限度地减少不 desirable 输出。 和局限性。它还讨论了它们的进步对各个领域 AI 未来的潜在影响。 论文结构如下:第2节涵盖了相关工作,第3节讨论了DeepSeek模型及其变体,第4节提供了讨论,第5节总结并提出了未来方向。 II. 相关工作 近期人工智能的发展推动了专门针对推理、数学问题求解和代码生成的模型的出现,这些模型补充了一般用途的大规模语言模型(LLMs),后者在文本任务方面表现优异,但在数学精确性和结构化问题求解方面存在不足。为了弥合这些差距,AI研究越来越关注增强下一代模型的推理能力和计算效率。 D. Qwen 2.5 Qwen2,在2024年6月发布,是Qwen系列的最新版本,紧随其后的是Qwen1.5(2024年2月发布)和原始的Qwen(2023年8月发布)[4]。Qwen1.5包含至多720亿个参数的模型,强调效率和开源可访问性,而Qwen2则扩展至1100亿个参数,并在推理能力、多语言支持和编程能力方面有所改进。 A. OpenAI GPT OpenAI的GPT-4于2023年3月发布,是一款处理文本和图像的多模态模型[1]。该模型基于变压器架构,在数学推理和语言理解等任务上超过了GPT 3[13, 14]。据估计,其参数量达到1.8万亿,远超GPT 3的1750亿。最初支持上下文窗口为8192个令牌(GPT-4-8K)和32768个令牌(GPT-4-32K)。2023年下半年,GPT-4 Turbo的推出将这一容量扩展至128K个令牌。虽然GPT-4在图像描述和问题解决等任务上表现出色,但模型生成的信息可能会听起来合理但实际上却是错误的或虚构的(幻觉),特别是在医学、法律或技术等领域中。 Qwen2 利用一个 128K 令牌上下文窗口,并通过 YaRN(上下文扩展微调)等创新技术增强,以实现稳定的长上下文处理。在数学推理、代码生成和低资源语言理解等任务中表现优于其前代产品。对齐技术包括 RLHF、直接偏好优化(DPO)以及精心筛选的安全数据集,以减少不理想的响应。 E. 双子座 2.0 Gemini 2.0 是谷歌最新的多模态大语言模型(LLM),基于 1.0 和 1.5 版本,提供了跨文本、图像、音频和视频的更强大的生成式 AI 能力 [5]。Gemini 2.0 Flash 初始作为实验性变体推出,相比其前代产品 Gemini 1.5 Flash,在速度和效率上取得了显著提升,同时保持了高质量。它支持代理型 AI 和原生工具使用,使模型能够调用外部功能(如 Google 搜索和地图)并集成流式数据以扩展实时应用。通过在诸如数学、代码生成和多语言音频输出等任务中实现更好的性能,并结合增强的能量效率,Gemini 2.0 的目标是为开发者和最终用户提供全面且成本效益高的 AI 解决方案。 B. 克劳德 3.5 Claude 3.5,在2024年发布,是Anthropic语言模型家族的最新进展[2]。它在前一代版本的基础上,强调了安全、对齐和性能,改进了推理能力、语言理解能力和处理复杂任务(如文本和代码生成)的能力。该模型拥有约250亿个参数,相比早期模型在准确性和伦理对齐方面表现更优。它支持最多20万个标记的扩展上下文,能够更好地处理大量输入。通过增强学习(基于人类反馈的强化学习,RLHF)和宪法AI技术的提升,它减少了不 desirable 的响应、偏见,并更好地与人类意图保持一致。Claude 3.5 在编码和科学推理等专业领域表现出色,具有更高的透明度和伦理保障。然而,在接近上下文限制的复杂或模棱两可的输入中,其性能可能会有所下降。 III. Deepseek 及其变体 DeepSeek 模型建立在基于变压器的档案结构上 , 优化了分组查询注意( GQA) 和闪光注意 2[6]. GQA 通过将查询分组以共享关键值头部 来平衡效率和质量。FlashAttention 2 是一种计算感知算法,通过切片和重计算优化 GPU 内存使用。这些改进减少了内存开销并提高了推理速度。核心注意力机制遵循以下公式: C. LLama 3.1 LLaMA 3.1,在2024年发布,是Meta的LLaMA(大型语言模型Meta AI)家族的最新版本,紧随其后的分别是LLaMA 1(2022年)和LLaMA 2(2023年)[3]。LLaMA 1包含多达650亿个参数,而LLaMA 2则扩展到700亿个参数,并引入了较小的变体(7B和13B),以增强泛化能力和多语言能力。LLaMA 3.1在此基础上进一步发展, QKTV(Q, K, V) =√AttentionsoftmaxdkQK V其中(查询) ,(键) 和(值) 是投影d来自输入嵌入 , 并且是缩放因子。k DeepSeek 中的位置编码通过职位嵌入(RoPE),which embeds相对位置信息通过旋转变换嵌入到查询和键中。这使得处理极其长的标记序列(最多可达20万个标记)成为可能,克服了传统变压器在处理长期上下文任务时的限制。 基于编译器反馈和真实标签的奖励模型;第二阶段旨在评估帮助性、安全性和规则合规性,利用了三个从人类偏好和手动编程中开发的奖励模型。 D. DeepSeek V3 DeepSeek V3 在大型语言模型(LLM)中代表了一个重要的升级。它基于一个包含14.8万亿个令牌的多语言语料库进行预训练,并采用了一个由6710亿个参数组成的稀疏MoE架构,每个任务激活370亿个参数 [11]。这种设计通过动态分配资源以满足特定任务的需求来提高计算效率,从而降低运营成本。 A. DeepSeek 7B DeepSeek 7B,一个参数量为7B的模型,设计用于处理诸如推理、编程和文本生成等通用任务。该模型采用预归一化(pre-norm)、解码器仅(decoder-only)Transformer架构,并在其前向传播层中使用RMSNorm归一化和SwiGLU激活函数。模型包含相对位置编码(RoPE)和全局查询调整(GQA),共有30层Transformer、32个注意力头以及4096的隐藏维度,上下文窗口长度范围从4K到32K个标记,可通过RoPE进行调整。DeepSeekChat,一个参数量更大的变体,拥有67B参数,包括95层Transformer、64个注意力头以及8192的隐藏维度。 该模型包括一个路由系统,其中包含1个共享专家和256个路由专家,具备动态偏差调整功能以确保专家利用的均衡性,从而提高可扩展性和可靠性。此外,多令牌预测(MTP)增强了模型在复杂语言和推理任务中的能力。尽管架构先进,DeepSeek V3仍面临若干局限性: B. DeepSeek MoE - 16B DeepSeek MoE-16B,一个包含16亿参数的MoE模型,通过动态路由输入通过16个专家网络中的2个,激活每token仅2.6亿参数[7]。这种稀疏激活相比相似规模的密集模型降低了70%的推理成本,并保持了稳健的表现。它基于涵盖代码、数学和通用文本的多样化数据集进行预训练,重点关注高质量数据和专家专业化,以支持如代码生成和数学推理等任务。表I展示了其他基于DeepSeek的专门变体。 计算和硬件需求 : 1)671B 参数需要高端硬件 , 限制了资源受限的用户的可