AI智能总结
necessitates 创新的解决方案以更好地平衡预训练效率和模型性能。一种新兴的解决方案便是Mixture-of-Experts(MoE)(Shazeer 等人。,2017)架构。MoE框架通过动态路由输入到专家子集来提高模型的计算效率,从而在保持训练成本的同时实现显著的模型扩展,并在该领域推动了诸多重要的进展。(Reid 等人。,2024;Jiang 等人。,2024;Dai 等人。,2024;Team,2024)。超越效率 , 另一个有吸引力的特征 Abstract 混合专家(MoE)因其实有的独特属性和出色的性能,特别是在语言任务方面,正逐渐获得越来越多的关注。通过稀疏激活每个标记的一小部分参数,MoE架构能够在不牺牲计算效率的情况下增加模型规模,从而在性能与训练成本之间实现更好的权衡。然而,MoE的内在机制仍然缺乏进一步的探索,其模块化程度也存在疑问。在本文中,我们初步尝试理解基于MoE的大规模语言模型的内部工作机制。具体而言,我们全面研究了三个最近提出的MoE基模型的参数和行为特征,并揭示了一些引人注目的观察结果,包括:(1)神经元表现出像细粒度专家的行为;(2)MoE的路由通常会选择输出范数较大的专家;(3)随着层深度的增加,专家多样性增加,而最后一层是个例外。基于这些观察结果,我们还为广泛的MoE实践者提供了建议,如路由设计和专家分配。我们希望这项工作能够为未来对MoE框架和其他模块化架构的研究提供启示。代码可在 [此处链接] 获取。https: / / github. com /kamanphoebe / Look - into - MoE. MoE架构在于其模块化设计和学习范式。这种模块化能够通过将多样化的数据和任务分配给更专业的专家,从而在单一MoE模型中实现更加灵活且可能更具普适性的处理。尽管MoE架构被广泛应用,但仍然存在一个开放性问题,即现有的基于MoE的大型语言模型(LLM)是否真正利用了这种模块化在知识分布或模型行为方面的优势,尤其是在不同专家之间的表现上。换句话说,MoE是简单的同质专家集合还是异质专家的模块化组合?全面回答上述问题并非易事。因此,在本文中,我们首先通过研究三种近期的MoE基大型语言模型(如Mixtral 8x7B)来迈出这一步。Jiang 等人。,2024) , DeepSeekMoE (Dai 等人。,2024) 和 Grok - 1 1从两个关键视角出发: arXiv: 2406.18219 v1 [cs. CL] 2024 年 6 月 26 日模型参数和模型行为。我们旨在探索不同专家之间共性和差异性的特征与行为,进一步揭示基于门控模型(MoE)的内在机制。 1 Introduction 大型语言模型(LLMs)的出现彻底改变了自然语言处理领域。研究人员不断通过扩大模型规模和训练数据量来推动语言模型的边界,显著提升了这些模型的能力。这种训练成本和复杂性的提升 特别是,我们考察了专家参数、门控机制与其在文本输入下的输出特征之间的相关性。在深入分析之前,我们简要总结了一些实证结论(详见Sec部分)。6) 和观察结果 : 前馈网络 (FFN) 中的神经元 1https: / / github. com / xai -org / grok - 1 层是由细粒度专家构成。门嵌入和专家的门投影矩阵均执行选择操作:前者确定专家的选择,而后者控制神经元的激活。同时,我们观察到它们相似的热图表现出相关性,这表明从门投影的角度来看,专家神经元可能可以被视为“微小”的专家,每个仅包含一个神经元。 我们选择的模型的专家遵循 LLaMA 的风格 (Touvron 等人。,2023) , 它由三个线性层组成 , 操作如下 : (1)(x) = W (W x x 专家行动 (W)) 上闸下 where⊙表示逐元素乘法和 Act激活函数缩写为。给定W ,W三个权重矩阵∈d ×dmid hid向上的门RWand∈d ×ddownR藏在中间, 我们将神经元定义为W[i,:] • 增加更深层次专家的数量但减少最后一层的专家数量。我们观察到,随着层数的增加,专家参数和输出之间的相似性持续下降,但在最后一层突然增加。• 使用范数作为路由机制 3 Overview我们的实验是在几个开源混合专家模型(MoE)上进行的,包括Mixtral 8x7B、DeepSeekMoE和Grok-1,这些模型在各个领域都展现了出色的性能。为了进一步研究标准Transformer模型与MoE模型之间的相似性和差异性,我们还包括了Mistral 7B。Jiang 等人。,2023) 作为我们研究的模型之一。本文中涉及的一些基本模型信息和模型名称的缩写总结在表1中。1。分析分为两个部分 , 重点是模型参数静态() 和输入文本的模型行为动态(). 除非另有说明, 所有涉及相似性测量的实验均采用余弦相似性。行向量的组合andupW[i,:]W[:, i], 以及列向量.gatedownd因此 , 每个专家都包含神经元。mid 是一个合理的选择。对于Mixtral 8x7B和DeepSeekMoE,我们发现门通常会选择输出范数较大的专家。• 在分析专家之间的相关性时, 衡量权重矩阵之间的相似性在一定程度上等同于衡量专家输出的平均相似性。 • 与某些特殊初始化方案相比,从零开始训练MoE(混合专家模型)更有可能促进专家多样性。这源于较强的关联性观察结果(correlations)。e.g.混合专家系统(MIX-Tral)专家的参数和行为之间存在较高的相似性,而从零开始训练的DeepSeekMoE和Grok-1则没有显示出这样的关联。 4 静态参数分析 2 初步 : 专家混合物 从宏观角度来看,模型学习的知识体现在其参数中。因此,调查权重矩阵是一种自然的方法来检查模型。在本节中,我们研究了以下参数之间的相关性:(i)MoE专家(以及Mistral中的前馈神经网络FFNs),(ii)门嵌入,这是MoE的两个重要组成部分。 混合专家模型增强变压器N通过将原始 FFN 替换为并行NFFN 与路由器组合。这些 FFN 是En也被称为专家 , 并表示为for∈n[1,N]g( ;G, k. 路由器·)G, 由 k 参数化x和一个整数 , 将输入分配给一个分数g(x;G,k)分配给专家 ,∈N. Rg通常 , 路由器由一个简单的线性 softmax 组成Top-k层 , 后跟一个and a函数。x给定∈h y, 输出∈h是k Top - kNWhen for小于 , 只有一个专家子集参与计算。这被称为稀疏专家混合 (SMoE) 。Xy=g(x;G,k)E(x)nnn∈NR所有专家输出的 R 加权和 : 4.1 专家的权重矩阵 MoE models replaces FFNs in standard transformer with experts. Thus, followingGeva等人。(2020);邱等人。(2024) , 专家的投影矩阵可以被视为键和值 : col -W的 umn 向量代表可能的输出 -downWputs; 的行向量产生的重量upW对于每个可能的输出 ; 的行向量gate决定是否激活相应的神经元。因此,调查权重矩阵是一种直接了解专家意见的方法。 混合 8x7B 混合 32 8 2 4096 14336Mistral 7B Mistral 32 不适用不适用 4096 14336DeepSeekMoE DeepSeek 27 64 路由 + 2 共享 6 2048 1408Grok - 1 Grok 64 8 2 6144 32768 行为。为了从不同的角度进行研究 , 我们分析了矩阵和神经元的水平。 DeepSeek 和 Grok 专家之间的相似性接近于零。虽然 Mixtral 的训练方法尚未公布,但已知 DeepSeek 和 Grok 是从头开始训练的。这项实验表明 Mixtral 可能是通过某些特殊方案训练的,导致从头开始训练的专家较少多样性(less diverse experts training from scratch)。吴等人。,2022). 4.1. 1 矩阵级 4.2 浇口嵌入4.1. 2 神经元级在 SEC4.1我们在矩阵级别衡量专家参数的相似性。然而,余弦相似性的计算与位置有关。假设两位专家的神经元相似但顺序不同,它们权重矩阵的相似度将会远低于预期。为解决这一问题,我们提出了两种在神经元级别调查相关性的方法:均值法和重排序。均值法简单地对行进行平均。WW W(forand) 或列 (用于) ofupgatedown权重矩阵,然后计算由此产生的向量在专家之间的相似性。对于重新排序,我们应用Jonker-Volgenant算法 (Jonker 和 Volgenant,1988), 通常用于解决线性分配问题,以找到最大化两位专家余弦相似性的神经元最优顺序。我们将在下文中描述重新排序方法的结果,并将平均值的详细内容留作附录。B。此外 , 使用 PCA 在低维空间中的神经元投影可以在 Append 中找到A.2. 由于计算量较大,我们仅对几层进行重排序计算。请注意,矩阵是单独进行重排序的。我们衡量τ肯德利系数(Kendall's coefficient)用于衡量重新排序前后指数序列的一致性,其值增加表示两个序列存在较强的一致性。表。2描绘了重新排序后的共同相似性增长和平均肯德尔系数 -τ¯在选定的图层上。 Mix 的顺序 -τ传入神经元几乎没有变化(幅度较大),因此相似性几乎保持不变。尽管重新排序后,DeepSeek 和 Grok 的相似性增长显著,但它们的整体值仍然约为 \(10^{-2}\)。 在这一部分中 , 我们探讨了每一层中所有专家之间权重矩阵的相似性 , 以W WW三个投影矩阵,, and.向上的门down相似性是基于展平矩阵向量计算的 , 并在图 中进行了说明。1我们用“F”表示Mistral FFN,用“SE”表示DeepSeek共享专家。请注意,不同模型的图表颜色栏不相同。2 普通。热图显示三个矩阵具有相似的模式。由于权 重矩阵较大,直接展平它们会生成高维向量。我们采用主成分分析(PCA)将展平后的向量转换为二维空间。结果表明,Mixtral和DeepSeek在三个权重矩阵上的专家分布也大致相同。有关PCA结果的更多细节详见附录。A.1.混合和 Mistral 。 余弦相似性S 深层(第22至第30层)的值通常较低。“暗十字”现象在某些层中可以观察到,并且与PCA投影到二维空间中的离群值相对应,表明相应专家与其他专家较为不同。有趣的是,这种十字在专家3中最频繁出现,这表明该专家可能学到了一些特殊的属性。值得注意的是,这种十字通常贯穿整个热图,包括FFN的最后一行。因此,当Mistral专家与其它专家差异较大时,它与Mistral的FFN的相似度也较低。DeepSeek 和 Grok. 由于共享专家 DeepSeek 实现为一个单个的MLP块,其隐藏大小大于路由专家,因此它们展平后的向量无法直接比较,因此在这次实验中省略了共享专家。Fig.1证明了类似的 - 3所选 MoE 模型中的门被实现为具有嵌入大小的线性层nd,Rexp×Rhidnwhere代表专家的数量。exp ()()()4.3 Summary模型X, YupX, YgateX, Ydown混合 0.06 0.33 0.07DeepSeek 0.00 0.40 0.00Grok 0.04 0.15 0.04W向量和明显强于gateWW(X, Y)and. For the对 , 虽然upgatedwonRMixtral 和 DeepSeek 具有相似的2R,2ofavgR混合波动在 0.1 和 0.7 之间 , 而2DeepSeek 的值保持在 0.4 附近。此外 , 我们 (X, Y)可以从 Tab 看到4 that两者的混合gate和 DeepSe