AI智能总结
Chengen Wang 大学德克萨斯大学达拉斯分校chengen.wang@utdallas.edu Murat Kantarcioglu 弗吉尼亚理工大学muratk@vt.edu 摘要 DeepSeek-V3 和 DeepSeek-R1 是通用任务和推理领域领先的开源大型语言模型(LLMs),其性能与 OpenAI 和 Anthropic 等公司提供的尖端闭源模型相当——同时仅需其训练成本的一小部分。理解 DeepSeek 成功背后的关键创新技术对于推进 LLM 研究至关重要。在本文中,我们回顾了推动这些模型卓越有效性和效率的核心技术,包括对 Transformer 架构的改进、多项创新技术(如多头潜在注意力机制、专家混合模型、多标记预测、算法、框架和硬件的协同设计、组相对策略优化算法、纯强化学习的后训练以及监督微调和强化学习之间的迭代训练交替)。此外,我们还识别出若干悬而未决的问题,并强调该飞速发展领域的潜在研究机遇。 关键词:DeepSeek、多头潜在注意力、专家混合、组相对策略优化 (GRPO) 1 引言 ChatGPT于2022年底的兴起[Ope25a] ushered in a new era of Large Language Model (LLM) research. LLMs have since advanced rapidly, with models like GPT [Ope25b]和Claude[Ant25]表现出色。虽然像LLaMA这样的开源大语言模型[GDJ+24]在某些指标上取得了具有竞争力的成绩,但它们的整体表现仍然落后于专有模型。 2025年1月,DeepSeek震撼市场并引发关注[Reu25] with DeepSeek-V3 [LFX+24] 和新推出的DeepSeek-R1 模型 [GYZ+25]. 这些模型在性能上可与最先进的GPT模型相媲美,同时仅需一小部分训练资源。理解这些模型非凡的有效性和效率背后的技术对于推进LLM研究至关重要。 arXiv:2503.11486v1 [cs.LG] 14 Mar 2025在本研究中,我们回顾了DeepSeek模型成功的核心技术。这些技术包括对Transformer架构的改进——具体为多头潜在注意力机制(MLA)和专家混合(MoE);多标记预测;算法、框架和硬件的协同设计;群体相对策略优化(GRPO)强化学习算法;以及后训练技术,如纯强化学习和在监督微调(SFT)与强化学习之间交替的多阶段迭代训练。此外,我们还识别出DeepSeek技术报告中未解决的若干问题。 消融研究,强调潜在的研究机会。 在下文中,我们首先在第一节中对上述创新技术提供简要而深入的回顾。2,随后在第五部分讨论开放性问题及潜在研究方向。3, 并在第六节总结全文。4. 2 创新技术 在这一部分,我们考察推动DeepSeek模型成功的关键创新技术。虽然这些技术已整合至DeepSeek-V3和DeepSeek-R1中,但其中一些技术可能 已在早期的DeepSeek模型中引入。 2.1多头潜在注意力 KV缓存是Transformer的Multi-Head Attention(MHA)模块中使用的一种技术,通过存储中间的键值对来加速推理,从而消除重复计算的必要性。然而,对于长上下文的大型语言模型(LLMs),KV缓存可能会因内存消耗过高而成为瓶颈。减少KV缓存的一种方法是在Multi-Query Attention(MQA)[Sha19]和组查询注意力(GQA)[ALTDJ+23]. 尽管如此,他们的表现与MHA不相符。后来,针对DeepSeek-V2提出了一个名为多头潜在注意力(MLA)的创新注意力机制 [LFW+24], 在实现更好的性能的同时,需要远小于 KV 缓存的 KV 缓存。 2.1.1 标准多头注意力 In the standard MHA [VSP+17], 查询、键和值通过投影矩阵获得W Q, W K, W V∈d n ×d∈dRh h, 转变h, 输入t-th token, to queries, keys andtR值q=W Q h,k=W K h,v=W V h,q,k,v∈d n h h,分别地,在d is the dimensionR of the input embedding,n is the number of heads andd是人均维度。 ttt tt t t t thh 维度d ×n indicates how theq,k,v被切成片状n heads with dimensiond perh ht t t h h朝向多头注意力机制 [LFW+24, Eq. (4)-(8)]: (3)[v ;v ;...;v ] = v , t,1 t,2 t,n t h whereq,k,v∈dhrepresent the query, key, and value of thei-头,分别t,i t,i t,iRWO∈dhj=1tt,1 t,2 t,nh 在推理过程中缓存d×d nRh h是输出投影矩阵。在推理过程中,每个token需要大小为2的KV缓存。n d l,其中l是层数。h h 2.1.2 低秩键值联合压缩 MLA的核心思想是将投影矩阵分解为两个低秩矩阵:W=WU W DKV,其中W DKV∈d ×d是键和值的下投影矩阵。W U∈Rcd n ×dRc 是上投影矩阵,和d ≪d n向下投影矩阵压缩bothch h keys and values intoone潜在向量c KV=W DKV h,c KV∈d[LFW+24, Eq. (9)]. SincetRctt 2d ≪d n, 对每个代币,节省c KV, of sized l, 而不是两者kandv, of size 2d n l, 大大ch h c t t h ht 键和值是从潜在向量计算得出的。c KV as follows [LFW+24, 式(10)-(11):t whereW UK, W UV∈d n ×dRc h h分别表示键和值的上投影矩阵。重要的是,W UK将被吸收至W Q andW UV absorbed intoW O在推理期间,因此我们不需要计算。k C,v C明确地。MLA的架构如图所示。1.tt Moreover,低位秩对查询进行压缩以减少激活内存。训练[LFW+24,式(12)-(13)]: wherec Q∈d′≪d n, 和DQRc:表示查询的压缩潜在向量,具有d′W ∈ h h 2.1.3 解耦旋转位置嵌入c d′×d, W UQ∈d n ×d′Rc R h h c分别表示下投影矩阵和上投影矩阵。 DeepSeek-V2利用了旋转变量嵌入(RoPE)[]SAL+24]: where RoPE (·)表示应用RoPE矩阵的操作,Θ是预定义参数。Θ,j-iΘ,j−i ji andi, j are thei-th andj-名次。因此,W UK将不会被吸收W Q,导致推理过程中出现显 为解决此问题,DeepSeek-V2提出将RoPE解耦为独立的查询和键集:多头查询q R∈dR∈著的计算成本。 RR h and a keykdRR h shared by all heads, whered R represents thet (12)解耦查询和键的头尺寸。这种解耦策略本质上计算两组独立的注意力权重,然后将其相加。完整的MLA计算如下[LFW+24, Eq. (14)-(19)]:kR= RoPE(W KR h),[q R;q R;...;q R] =q R= RoPE(WQ whereWKRQR∈d ×′andRRn dh hcW ∈dRR×dhdenote matrices used to generate the decoupled queries and key, respectively, RoPE(·) 指的 2据报告,MLA的表现优于MHA [LFW+24, 表9], 这在考虑MLA使用低秩矩阵的情况下令人惊讶,因为低秩矩阵本质上比用于键和值的原始投影矩阵包含更少的信息。因此,这种性能提升很可能归因于解耦RoPE的引入,它不同于原始RoPE。然而,关于解耦RoPE的消融研究尚未被报道,使其成为进一步研究的有价值方向。是应用 RoPE 矩阵的操作,省略了下标,和 [·;·] 代表连接操作。在推理过程中,解耦的键k R witht维度d R is也缓存了。因此,每个标记都需要缓存大小(d+d R)l总共。对于chhh h ch hh 2 2.2 专家混合 专家混合(MoE)是一种旨在降低计算成本的同时扩展模型参数的架构。在MoE模型中,Transformer中的前馈网络(FFN)层通常会以特定间隔被MoE层替换。每个MoE层由多个专家组成,这些专家在结构上与标准的FFN相同。标记会被路由到一个或两个专家[FZS22,LLX+20]. The DeepSeekMoE architecture [DDZ+24]引入了两种关键创新:细粒度专家分割和共享专家隔离。这些创新建立在传统的MoE之上。 2.2.1 细粒度专家细分 除了图示的常规MoE架构2(a),每个FFN都被分割成m通过均匀分配FFN隐藏维度来创建更小的专家。因此,如果专家的总数是N每个代币的激活专家数量是K在一个传统的MoE中,然后将专家的总数增加到mN并且激活专家的数量增加到mK对于精细粒度的MoE架构,如图所示。2(b). 这种细粒度分割策略极大地提高了激活专家的组合灵活性。 2.2.2 共享专家隔离 共享专家致力于捕获跨不同情境的共同知识,减少不同专家之间的参数冗余。具体而言,K专家被视为共享专家,s 并且每个标记将始终分配给这些共享专家,除此之外还有他们各自的分配专家。为了保持恒定的计算成本,total number ofrouted专家N被减少r tomN−K并且每个代币的路由专家数量是mK−K.ssWith the novel strategy of fine-grained expert segmentation and shared expert isolation, an MoE在DeepSeekMoE架构中,该层被定义为如下 [DDZ+24, Eq. (9)-(11)]: K 2.2.3 负载均衡where FFN (·) refers to thei-th 专家 FFN,u l∈d is the hidden state of thet-after the -th tokenl-thiRt注意力模块,和h l∈d is the output hidden state of thet-after the -th tokenl-th MoE层。Rtgrepresents the gate value for thei-th 专家,s token与专家的亲和度,Topk(·,K) gives 自动学习的路由策略可能会面临负载不平衡的问题,其中少数专家总是被选中,而其他专家则没有得到充分训练,或者激活的专家分布在多个设备上,导致显著的设备间通信成本。这些问题通过负载平衡的辅助损失来解决 [FZS22]. 专家级平衡损失表述如下[DDZ+24, Eq. (12)-(14)]:i,ti,tset of topK为亲和力得分计算的t-th token across allN专家,和e l represents theicentroid of thei-th专家在l-th层。 Letf1whereα是一个超参数,N′=mN−K andK′=mK−K为了简化,和(·) 代表着ss指示函数。当负载在专家之间均匀分布时,L is minimized,ExpBali,tiTt=1 i 'be the normalized version offiandPi,fi '=N