您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [-]:动态混合课程LoRA专家以实现持续多模态指令调优 - 发现报告

动态混合课程LoRA专家以实现持续多模态指令调优

信息技术 2025-06-13 - - 张东旭
报告封面

者(s)版权所有,2025年。 121洪晨1嘉沛藩2黄龙桃2慧学2温武朱1战,的研究。42次会议记录nd 我们的工作的贡献总结如下:• 我们提出一个动态层级专家分配器那个可以自动跨任务逐层分配专家(2) 模态不平衡。在CMIT中,对不同模态的依赖程度因任务而异,这可能导致某个模态在 learning 过程中占据主导地位。这种不平衡使得在模态之间实现均衡更新面临挑战,并常常导致 MLLM 中不同模态的模块训练欠佳。呈现不同的信息模式,导致在MLLM中transformer层之间存在不同的敏感度。这种变化使得确定在何处应用架构进化变得具有挑战性,因为某些层可能对某些任务比其他层更关键。• 我们观察到任务架构冲突和模态不平衡在CMIT。对于任务架构冲突,我们提供一个理论分析表明不同层对不同任务表现出不同的敏感性,导致均匀资源分配效率低下。• 我们介绍了动态课程学习 LoRA 专家混合 (D-MoLE),这是首个从架构角度研究 MLLM 持续学习的方法。D-MoLE在受控预算内进化 MLLM 的架构,使其能够持续适应新任务,同时保留先前学到的知识。D为应对这些挑战,我们提出了一种新型动态Mo L E D-MoLE)ixture f Curriculum oRA xperts (一种适用于CMIT的方法,能够自动在受控预算内演进MLLM的架构,以持续适应新任务,且不会遗忘先前学习的知识。具体而言,我们提出了一种动态层专家分配器,自动在层间分配LoRA专家,以解决架构冲突。该模块基于训练无关的无成本代理生成的分数,通过将模型演进应用于每个任务的最关键层来优化资源分配,并逐层路由指令,以促进专家间的知识共享。接着,我们提出了一种基于梯度的跨模态持续课程,根据每个模态任务的难度动态调整模型架构演进过程中语言模型和模态编码器之间的更新比例,以缓解模态不平衡问题。通过动态分配LoRA专家并使用课程来指导跨模态优化,D-MoLE为MLLM的持续学习提供了一种可扩展且高效的解决方案。大量实验表明,D-MoLE显著优于当前最先进的基线,相比最佳基线平均性能提升了15%。据我们所知,这是从架构视角对MLLM持续学习进行研究的首次尝试。 3. 初步研究2.2. 具有架构演进的CMIT2.1. 持续多模态指令微调2. 问题公式化基于所引入的问题表述第二节 2.2,专注于在CMIT场景中优化分配新引入的参数,存在两大关键挑战:任务架构冲突,源于参数分配的最佳位置因任务而异的事实,模态不平衡, 其中不同的模态在不同任务上具有不同的主导水平。在本节中,我们介绍了关于这些挑战的关键观察结果。给...穿衣任务架构冲突在受约束的参数预算下,和基于梯度的跨模态持续课程动态调整多模态模块之间的更新,有效缓解模态不平衡.持续多模态指令调优(CMIT)是指在执行连续任务的同时,对MLLMs进行适配, ,...,通用知识和特定任务的知识。令,..., T,表示任务,以及{T他们的信件}指令数据。在每个时间步{Di,模型接收}一个新数据集并且无需整合新知识获取先前的任务。先前遇到的数据i−1通常无法访问,除非在基于重播的方法中{Dk=1那个将选定样本存储在内存缓冲区中的。= (t,v,o)在CMIT中,每个数据集Ni ii由...组成t关于文本输入,视觉输入{j j jv}j=1o,并输出 。MMLL处理这些多模态指令以生成输出,同时避免灾难性遗忘。关键挑战是在过去任务中的泛化与对新任务的微调之间取得平衡,同时管理多模态数据的复杂性。大量实验表明 D-MoLE 显著• 在CMIT方面优于最先进的方法,在任务适应和知识保留方面,平均比最佳基线提高了15%。在本文中,我们探索了一种基于架构演化的方法,用于 MLLMs 的持续学习。考虑到现实世界环境中的计算资源有限,我们无法为每个任务简单地引入大量新参数。因此,基于所概述的 CMIT 框架B在第二节 2.1,我们定义一个参数预算对于每个总数任务。我们的问题描述聚焦于如何在参数预算下,将这些参数动态分配到MLLM中最重要的层,以确保对新任务的适应性效率。 12TN1D2DNDik}Dii 123450.00.51.01.52.04.1. 动态逐层专家分配器4. 方法论3.2. CMIT中的模态不平衡相对权重变化 (%)任务 ID何处表示损失关于的梯度Wl梯度L参数W在层l。lL为了表征CMIT中的模态不平衡,我们追踪LLM和视觉编码器在任务中的相对权重变化(即梯度更新幅度)。如图2,更新动态不同:某些任务中LLM占主导,而在另一些任务中视觉编码器表现出更强的更新。这表明模态重要性取决于任务,跨模态静态分配适应预算是不够的。D-MoLE的整体框架如图所示图3.D-MOLE包含两个关键组件:动态分层专家分配器和基于梯度的跨模态课程。本节介绍每个模块的细节,随后是我们的方法的整体流程。因此,需要一个动态机制来根据任务特定的模态依赖调整更新比例。这促使我们使用基于梯度的跨模态课程,该课程根据从无训练代理估计的模态敏感性自适应地分配资源。为了解决CMIT中任务架构冲突问题,引入了第三节 3.1,我们提出动态逐层图2:LoRA微调后每个任务的相对动态。任务的顺序与表2.模态不平衡是指在多模态学习中,主导模态压制较弱模态的现象,导致在训练过程中某些模块优化不足。这个问题在使用探测或冻结技术的小型融合模型中已被识别出(周等,2023;杜等人,2021;彭等人,2022), 并且仍然是大型 mllms (吴等,2024a). 然而,由于在MLLMs 中存在紧密耦合的结构,直接探测单个模态变得不再简单。 12 3 4 5 6 7 8 922-2419-2116-1813-1510-127-94-61-312 3 4 5 6 7 8 922-2419-2116-1813-1510-127-94-61-3(1)3.1. CMIT中的任务架构冲突层层任务 ID任务 ID(a) 大型语言模型(b) 视觉编码器在现有的MLLMs中,LLM和模态编码器均由多个堆叠的Transformer层组成,每一层由于特征抽象需求的不同,对任务贡献不同。低层通常处理基本特征,而高层处理抽象表示(张等人,2024d;高等人,2024因此,不同的任务倾向于依赖于不同层的子集以进行有效的表示,尤其是在任务在模态焦点或语义复杂度上存在差异时。图1:在MLLM中,不同transformer层在各种任务上对LLM和视觉编码器的敏感性。较深的颜色表示更高的敏感性。任务的顺序与表2.我们量化这任务架构冲突使用梯度范数度量(阿卜杜勒法塔赫等,2021), 其中度量了每个transformer层对不同任务的敏感度。如图所示图1, 对敏感性的分布因任务和层而异。在某些情况下,视觉编码器中的较低层更为关键,而在其他情况下,较高的LLM层贡献更多。这种可变性表明,在所有层中统一添加LoRA模块并不能有效地捕捉特定任务的适应需求。考虑一个具有L的MLLM定理3.1。在两个不同任务上顺序训练的 transformer 层AT . 未-B在任务异质性和非共线T梯度假设下,至少存在一层l∗在预期梯度范数不同处:∈ {1,...,L }E∇ ,W∗̸L= ETTB∇W∗All2L2提供有关其对CMIT的影响以及它们如何指导我们提出的方法设计的见解。这种均匀分配导致与任务关联度较低层出现冗余,而关键层则适应不足,从而造成参数使用效率低下和性能下降。相反,参数分配应优先考虑对当前任务学习贡献最大的层。我们进一步通过在附录 K,表明任务导致跨层的非平凡梯度差异。 (2)4LoRA中的矩阵。l任务中给定层的梯度范数T是t这种公式允许模型重用先验知识,同时适应新任务。门控函数有助于选择相关专家,逐层分配提供了额外的灵活性。零成本代理在新任务训练之前,我们随机采样一小部分训练数据用于任务T, 表示为tD(例如,完整数据集的1%),和,tsub用它通过零成本代理来计算重要性分数。具体来说,我们利用梯度范数作为零成本代理,应用于预训练模型。整个模型保持未冻结,我们对这个小子集执行一次正向和一次反向传递计算,tsubL每层梯度的范数,不更新2D任何参数。动态 LoRA 专家在持续学习中,当一个新任务T到达时,我们需要更新MLLM模型t用于适应新任务的参数。为了减少每个任务引入的新参数数量,我们使用LoRA(低秩适配)(胡等,2022), 其中一种最广泛采用的参数高效微调(PEFT)方法(丁等人,2023). 然而,在持续学习环境中简单地应用LoRA面临任务架构冲突。因此,我们提出动态课程 LoRA 专家混合(D-MoLE)用于CMIT。具体来说,为了适应新任务,层的输出l在所提出的D-MoLE中,公式表述为Ttl其中预训练的MLLM权重在层中被表示W0我由. 二进制指示器k确定是否lllk LoRA专家被分配到层以执行任务,并且门控gk(x)k函数控制第-th专家的激活lxi基于输入。任务的低秩更新为∆Wi=Bt−1Xft(x) =W0x+我kgk(x) ∆Wkx+我t∆ll l·ll l lk=1··Wtx,∆W接下来,我们讨论如何获得逐层指标我t使用零成本代理以及我们如何获取门控lg函数k(·)与自动编码器路由器。ltt 1图3:D-MoLE的整体框架。在任务上训练期间,来自先前所有任务(1到)仍然无法访问。D-MoLE首先从当前多模态指令调优数据中采样一小部分(例如,1%)。−任务的数据集。这些样本被用于使用无训练零成本代理计算LLM和视觉编码器中每个transformer层的难度分数。然后,难度分数指导基于梯度的跨模态课程,并确定当前任务的优化层专家分配架构。预训练的MMLLM和先前任务中的LoRA专家的参数保持冻结,而仅更新新分配的LoRA专家。专家分配器模块。该模块利用免训练零成本代理来识别哪些transformer层对当前任务最为关键,从而确定在哪里引入新参数。第一项代表预训练的 MLLM 权重的输出,而第三项提供用于适应当前任务 LoRA 专家的更新。第二项聚合了贡献T使用新分配的t从在先前任务上训练的 LoRA 专家。受 Mixture of LoRA Experts (MoLE) (吴等,2024c), 我们使用这个术语来实现从先前任务的知识迁移。 (6)(7)(8)(9)(10)(11)(12)哪些被连接为4.2. 基于梯度的跨模态持续课程z = concat(v ,w ), 池化 池化这些候选任务按照重建误差排序:(t) = Rank(Lt(z)), t ,排名rec∈ R并且用作自动编码器的输入。重建的输出是这是用于最小化均方重建损失的训练:为了缓解CMIT中的模态不平衡问题,引入了3.2节,我们提出一个基于梯度的跨模态持续课程当有新任务到达时,该功能会自动调整不同模态之间的更新比例。并且选取排名靠前的进行专家激活。门控函数随后确定每层的激活:这使得输入自适应专家选择,当输入与任何已知任务不匹配时,会回退到预训练的主干。在评估期间,任务标识是未知的。我们计算所有自动编码器的重建损失,并使用它们的阈值识别相关任务:训练期间,由于任务标识已知,我们传递数据通过所有先前自动编码器t{自动编码器k}t−1和识别先前任务kD=1最低重建误差。相应的专家随之被激活,以及新的专家T促进迁移。tLt( ) =ztrecLˆz(,z).MSEˆzt= 自动编码器t(z),共享输入/输出维度。为了训练自动编码器,我们从每个多模态v指令序列:图像特征来自视觉引擎w从 LLM 中获取的编码器和文本特征。应用最大池化以获得固定长度的向量:v= max v,w= max w,ii合并合并i=1,...,N i=1,...,M( 1, t TopK(Rank( )如果gk(x) =k l0,.否则∈ t ,2),R={ t | Lt(z)τ .rec≤t}较低的重构误差意味着更强的相似性t任务,允许自动编码器捕获其特定数据分布。 计算为这个特定于层的分配策略确保 LoRA 模块根据特定于任务的网络梯度信号