行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 智能驾驶大模型

DeepSeek模型关键创新技术综述

2025-03-14德克萨斯大学达拉斯分校&弗吉尼亚理工大学葛***

AI智能总结

DeepSeek模型关键技术总结框架

1. Transformer架构改进

多头潜在注意力机制（MLA）
- 核心思想：将投影矩阵分解为低秩矩阵，压缩键值对为潜在向量。
- 优势：显著减少KV缓存需求，提升效率。
- 关键数据：低秩矩阵维度 \( d \ll d_n \)，每个标记节省 \( c_{KV} \) 空间。
解耦旋转位置嵌入（RoPE）
- 创新点：将RoPE解耦为独立的查询和键集。
- 性能提升：优于标准多头注意力（MHA）。
- 研究机会：解耦RoPE的消融研究尚未深入。
专家混合（MoE）
- DeepSeekMoE创新：
  - 细粒度专家分割：将FFN分割为更小的专家。
  - 共享专家隔离：部分专家始终被分配，减少参数冗余。
- 关键数据：专家总数 \( N \)，激活专家数量 \( K \)，共享专家数量 \( K \)。

2. 多标记预测（MTP）

核心功能：预测因果链中的多个标记，提高训练样本效率。
优势：提升训练性能，但引入更长的训练时间问题。
关键数据：训练效率提升，但需进一步优化训练时间。

3. 算法、框架和硬件的协同设计

FP8混合精度训练
- 核心技术：对GEMM运算使用FP8精度，对敏感算子保持FP32精度。
- 优势：提升训练效率，同时保持数值稳定性。
DualPipe流水线并行算法
- 创新点：在每对前向和后向数据块内重叠计算和通信。
- 关键数据：减少管道气泡，实现近零通信开销。

4. 群体相对策略优化（GRPO）

核心优势：直接估计优势，减少内存使用。
关键数据：显著减少GPU内存使用，提升效率。

5. 训练后强化学习

纯强化学习
- DeepSeek-R1-Zero：仅使用强化学习训练，无SFT数据。
- 性能表现：持续提升，推理行为自然涌现。
基于冷启动的强化学习
- DeepSeek-R1：采用SFT和RL交替训练。
- 关键阶段：
  - 冷启动：使用CoT例子微调基础模型。
  - 以推理为导向的强化学习：提升推理能力。
  - 拒绝采样和SFT：提升写作、角色扮演等任务表现。
  - RL对齐：提升助益性和无害性，优化推理能力。

6. 开放性问题及潜在研究方向

Transformer架构改进：
- 解耦RoPE的全面消融研究。
负载均衡：
- 为负载均衡目标提供理论依据。
强化学习：
- 进一步优化SFT和RL交替训练方法。
高样本效率：
- 深入研究MTP训练时间问题。

7. 结论

DeepSeek模型通过多项技术创新显著提升性能和效率。
多领域创新为LLM研究提供新方向和机遇。

Chengen Wang 大学德克萨斯大学达拉斯分校chengen.wang@utdallas.edu Murat Kantarcioglu 弗吉尼亚理工大学muratk@vt.edu 摘要 DeepSeek-V3 和 DeepSeek-R1 是通用任务和推理领域领先的开源大型语言模型（LLMs），其性能与 OpenAI 和 Anthropic 等公司提供的尖端闭源模型相当——同时仅需其训练成本的一小部分。理解 DeepSeek 成功背后的关键创新技术对于推进 LLM 研究至关重要。在本文中，我们回顾了推动这些模型卓越有效性和效率的核心技术，包括对 Transformer 架构的改进、多项创新技术（如多头潜在注意力机制、专家混合模型、多标记预测、算法、框架和硬件的协同设计、组相对策略优化算法、纯强化学习的后训练以及监督微调和强化学习之间的迭代训练交替）。此外，我们还识别出若干悬而未决的问题，并强调该飞速发展领域的潜在研究机遇。关键词：DeepSeek、多头潜在注意力、专家混合、组相对策略优化 (GRPO) 1 引言 ChatGPT于2022年底的兴起[Ope25a] ushered in a new era of Large Language Model (LLM) research. LLMs have since advanced rapidly, with models like GPT [Ope25b]和Claude[Ant25]表现出色。虽然像LLaMA这样的开源大语言模型[GDJ+24]在某些指标上取得了具有竞争力的成绩，但它们的整体表现仍然落后于专有模型。 2025年1月，DeepSeek震撼市场并引发关注[Reu25] with DeepSeek-V3 [LFX+24] 和新推出的DeepSeek-R1 模型 [GYZ+25]. 这些模型在性能上可与最先进的GPT模型相媲美，同时仅需一小部分训练资源。理解这些模型非凡的有效性和效率背后的技术对于推进LLM研究至关重要。 arXiv:2503.11486v1 [cs.LG] 14 Mar 2025在本研究中，我们回顾了DeepSeek模型成功的核心技术。这些技术包括对Transformer架构的改进——具体为多头潜在注意力机制（MLA）和专家混合（MoE）；多标记预测；算法、框架和硬件的协同设计；群体相对策略优化（GRPO）强化学习算法；以及后训练技术，如纯强化学习和在监督微调（SFT）与强化学习之间交替的多阶段迭代训练。此外，我们还识别出DeepSeek技术报告中未解决的若干问题。消融研究，强调潜在的研究机会。在下文中，我们首先在第一节中对上述创新技术提供简要而深入的回顾。2，随后在第五部分讨论开放性问题及潜在研究方向。3, 并在第六节总结全文。4. 2 创新技术在这一部分，我们考察推动DeepSeek模型成功的关键创新技术。虽然这些技术已整合至DeepSeek-V3和DeepSeek-R1中，但其中一些技术可能已在早期的DeepSeek模型中引入。 2.1多头潜在注意力 KV缓存是Transformer的Multi-Head Attention（MHA）模块中使用的一种技术，通过存储中间的键值对来加速推理，从而消除重复计算的必要性。然而，对于长上下文的大型语言模型（LLMs），KV缓存可能会因内存消耗过高而成为瓶颈。减少KV缓存的一种方法是在Multi-Query Attention（MQA）[Sha19]和组查询注意力（GQA）[ALTDJ+23]. 尽管如此，他们的表现与MHA不相符。后来，针对DeepSeek-V2提出了一个名为多头潜在注意力（MLA）的创新注意力机制 [LFW+24], 在实现更好的性能的同时，需要远小于 KV 缓存的 KV 缓存。 2.1.1 标准多头注意力 In the standard MHA [VSP+17], 查询、键和值通过投影矩阵获得W Q, W K, W V∈d n ×d∈dRh h, 转变h, 输入t-th token, to queries, keys andtR值q=W Q h,k=W K h,v=W V h,q,k,v∈d n h h，分别地，在d is the dimensionR of the input embedding,n is the number of heads andd是人均维度。 ttt tt t t t thh 维度d ×n indicates how theq,k,v被切成片状n heads with dimensiond perh ht t t h h朝向多头注意力机制 [LFW+24, Eq. (4)-(8)]: (3)[v ;v ;...;v ] = v , t,1 t,2 t,n t h whereq,k,v∈dhrepresent the query, key, and value of thei-头，分别t,i t,i t,iRWO∈dhj=1tt,1 t,2 t,nh 在推理过程中缓存d×d nRh h是输出投影矩阵。在推理过程中，每个token需要大小为2的KV缓存。n d l,其中l是层数。h h 2.1.2 低秩键值联合压缩 MLA的核心思想是将投影矩阵分解为两个低秩矩阵：W=WU W DKV,其中W DKV∈d ×d是键和值的下投影矩阵。W U∈Rcd n ×dRc 是上投影矩阵，和d ≪d n向下投影矩阵压缩bothch h keys and values intoone潜在向量c KV=W DKV h,c KV∈d[LFW+24, Eq. (9)]. SincetRctt 2d ≪d n, 对每个代币，节省c KV, of sized l, 而不是两者kandv, of size 2d n l, 大大ch h c t t h ht 键和值是从潜在向量计算得出的。c KV as follows [LFW+24, 式(10)-(11):t whereW UK, W UV∈d n ×dRc h h分别表示键和值的上投影矩阵。重要的是，W UK将被吸收至W Q andW UV absorbed intoW O在推理期间，因此我们不需要计算。k C,v C明确地。MLA的架构如图所示。1.tt Moreover,低位秩对查询进行压缩以减少激活内存。训练[LFW+24,式(12)-(13)]: wherec Q∈d′≪d n, 和DQRc：表示查询的压缩潜在向量，具有d′W ∈ h h 2.1.3 解耦旋转位置嵌入c d′×d, W UQ∈d n ×d′Rc R h h c分别表示下投影矩阵和上投影矩阵。 DeepSeek-V2利用了旋转变量嵌入（RoPE）[]SAL+24]: where RoPE (·)表示应用RoPE矩阵的操作，Θ是预定义参数。Θ,j-iΘ,j−i ji andi, j are thei-th andj-名次。因此，W UK将不会被吸收W Q，导致推理过程中出现显为解决此问题，DeepSeek-V2提出将RoPE解耦为独立的查询和键集：多头查询q R∈dR∈著的计算成本。 RR h and a keykdRR h shared by all heads, whered R represents thet (12)解耦查询和键的头尺寸。这种解耦策略本质上计算两组独立的注意力权重，然后将其相加。完整的MLA计算如下[LFW+24, Eq. (14)-(19)]:kR= RoPE(W KR h),[q R;q R;...;q R] =q R= RoPE(WQ whereWKRQR∈d ×′andRRn dh hcW ∈dRR×dhdenote matrices used to generate the decoupled queries and key, respectively, RoPE(·) 指的 2据报告，MLA的表现优于MHA [LFW+24, 表9], 这在考虑MLA使用低秩矩阵的情况下令人惊讶，因为低秩矩阵本质上比用于键和值的原始投影矩阵包含更少的信息。因此，这种性能提升很可能归因于解耦RoPE的引入，它不同于原始RoPE。然而，关于解耦RoPE的消融研究尚未被报道，使其成为进一步研究的有价值方向。是应用 RoPE 矩阵的操作，省略了下标，和 [·;·] 代表连接操作。在推理过程中，解耦的键k R witht维度d R is也缓存了。因此，每个标记都需要缓存大小（d+d R)l总共。对于chhh h ch hh 2 2.2 专家混合专家混合（MoE）是一种旨在降低计算成本的同时扩展模型参数的架构。在MoE模型中，Transformer中的前馈网络（FFN）层通常会以特定间隔被MoE层替换。每个MoE层由多个专家组成，这些专家在结构上与标准的FFN相同。标记会被路由到一个或两个专家[FZS22,LLX+20]. The DeepSeekMoE architecture [DDZ+24]引入了两种关键创新：细粒度专家分割和共享专家隔离。这些创新建立在传统的MoE之上。 2.2.1 细粒度专家细分除了图示的常规MoE架构2(a)，每个FFN都被分割成m通过均匀分配FFN隐藏维度来创建更小的专家。因此，如果专家的总数是N每个代币的激活专家数量是K在一个传统的MoE中，然后将专家的总数增加到mN并且激活专家的数量增加到mK对于精细粒度的MoE架构，如图所示。2(b). 这种细粒度分割策略极大地提高了激活专家的组合灵活性。 2.2.2 共享专家隔离共享专家致力于捕获跨不同情境的共同知识，减少不同专家之间的参数冗余。具体而言，K专家被视为共享专家，s 并且每个标记将始终分配给这些共享专家，除此之外还有他们各自的分配专家。为了保持恒定的计算成本，total number ofrouted专家N被减少r tomN−K并且每个代币的路由专家数量是mK−K.ssWith the novel strategy of fine-grained expert segmentation and shared expert isolation, an MoE在DeepSeekMoE架构中，该层被定义为如下 [DDZ+24, Eq. (9)-(11)]: K 2.2.3 负载均衡where FFN (·) refers to thei-th 专家 FFN,u l∈d is the hidden state of thet-after the -th tokenl-thiRt注意力模块，和h l∈d is the output hidden state of thet-after the -th tokenl-th MoE层。Rtgrepresents the gate value for thei-th 专家，s token与专家的亲和度，Topk(·,K) gives 自动学习的路由策略可能会面临负载不平衡的问题，其中少数专家总是被选中，而其他专家则没有得到充分训练，或者激活的专家分布在多个设备上，导致显著的设备间通信成本。这些问题通过负载平衡的辅助损失来解决 [FZS22]. 专家级平衡损失表述如下[DDZ+24, Eq. (12)-(14)]:i,ti,tset of topK为亲和力得分计算的t-th token across allN专家，和e l represents theicentroid of thei-th专家在l-th层。 Letf1whereα是一个超参数，N′=mN−K andK′=mK−K为了简化，和（·) 代表着ss指示函数。当负载在专家之间均匀分布时，L is minimized,ExpBali,tiTt=1 i 'be the normalized version offiandPi，fi '=N

点击免费查看完整报告