您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:动态混合课程LoRA专家以实现持续多模态指令调优 - 发现报告

动态混合课程LoRA专家以实现持续多模态指令调优

2025-06-12--张***
AI智能总结
查看更多
动态混合课程LoRA专家以实现持续多模态指令调优

持续多模态指令微调的动态课程LoRA专家混合物 辰迪格 1 新王 1 张泽阳摘要 1 1.简介 洪晨持续多模态指令微调对于使多模态大型语言模型多模态大语言模型(MLLMs)(戴等人, 1(MLLMs)适应不断发展的任务至关重要。然而2023;刘等,2023;白等人,2025;朱等,2025) arXiv:2506.11672v1[cs.CV]13Jun2025 嘉沛藩,大多数现有方法采用固定架构,由于模型容量 ,它们通过将特定于模态的编码器(例如,视觉、音频)集 2静态而难以适应新任务。我们提出在参数预算下 成来扩展传统的大语言模型,在处理异构多模态数据方面 黄龙桃演化架构以进行动态任务适应,这是一个尚未探 表现出色。然而,在现实场景中,预训练的多模态指令微 2索的领域,并提出了两个挑战:1)任务架构冲 调模型不可避免地会因用户指令和需求的变化而遇到新数 2 慧学突,其中不同的任务需要不同层级的自适应,温武朱和2)模态不平衡,其中不同的任务对模态的 据。为了处理这些新任务,多模态指令微调模型需要适应 ,但这种适应过程可能导致灾难性遗忘,即模型丢失先前 1依赖程度不均,导致更新不平衡。为应对这些挑战, DMo我们提出了一种新的动态混合课程 LED-MoLElumoRA专家()方法,该方法自动进化MLLM的架构,在受控参数预算下持续适应新任务,同时保留先前学习的知识。具体而言 ,我们提出了一种动态的逐层专家分配器,该分配器自动在层间分配LoRA专家,以解决架构冲突,并逐层路由指令,以促进专家间的知识共享 。然后,我们提出了一种基于梯度的跨模态持续 课程,该课程根据任务中每种模态的难度调整MLLM中每个模块的更新率,以缓解模态不平衡问题。广泛的实验表明,D-MoLE显著优于现有最佳基线,比最佳基线平均提高了15%。据我们所知,这是首次从架构角度对MLLM进行持续学习的研究。 学到的知识。因此,连续多模态指令微调(CMIT)近来获得了相当大的关注(陈等人,2024a),以高效地适应新任务并保留先前学到的知识为目标。 尽管最近取得了进展,但大多数现有方法都采用 固定架构,这限制了持续学习中对过去和未来任务的模 型能力与灵活性。常见方法包括基于重放的算法(王等人,2024b;宋等,2023)和参数正则化方法(王等人,202 3a;向等,2023),两者最初都是为具有更简单输入结 构的单模态模型设计的。然而,MLLMs在结构上有所不同 :它们由特定模态的编码器、投影器和语言模型组成,形成了一种异构和分层架构。对每个组件的依赖在不同任务之间存在显著差异,导致在各个层和模态上都存在任务特定的敏感性。因此,固定架构的MLLMs在平衡知识保留和适应方面面临更大的困难。这些观察结果促使我们超越静态设计,并探索用于CMIT的动态架构自适应。 1 清华大学计算机科学与技术系,BNRist,北京,中国 2 阿里集团,杭州,中国。通讯地址:新 <>Wang王欣wang@tsinghua.edu.cn,朱文武 <>wwzhu@tsinghua.edu.cn. 42次会议记录 nd 机器学习国际会议,温哥华,加拿大。PMLR267,2025。者(s)版权所有,2025年。 为弥合这一差距,在本文中,我们提出在CMIT的给定参数预算下持续进化架构,旨在适应动态能力的新任务,同时保持先前知识,而不会显著增加计算资源。该问题在文献中尚未被探索,具有高度的非平凡性,并存在以下关键挑战: (1)任务架构冲突。在CMIT中,不同任务ex- 呈现不同✁信息模式,导致在MLLM中transformer层之间存在不同✁敏感度。这种变化使得确定在何处应用架构进化变得具有挑战性,因为某些层可能对某些任务比其他层更关键。 给...穿衣任务架构冲突在受约束✁参数预算下,和基于梯度✁跨模态持续课程动态调整多模态模块之间✁更新,有效缓解 模态不平衡. (2)模态不平衡。在CMIT中,对不同模态✁依赖程度因任务而异,这可能导致某个模态在learning过程中占据主导地位。这种不平衡使得在模态之间实现均衡更新面临挑战,并常常导致MLLM中不同模态✁模块训练欠佳。 大量实验表明D-MoLE显著•在CMIT方面优于最先进✁方法,在任务适应和知识保留方面,平均比最佳基线提高了15%。 D为应对这些挑战,我们提出了一种新型动态 MoLED-MoLE)ixturefCurriculumoRAxperts(一种适用于CMIT✁方法,能够自动在受控预算内演进MLLM ✁架构,以持续适应新任务,且不会遗忘先前学➀✁知识 。具体而言,我们提出了一种动态层专家分配器,自动在层间分配LoRA专家,以解决架构冲突。该模块基于训练无关✁无成本代理生成✁分数,通过将模型演进应用于每个任务✁最关键层来优化资源分配,并逐层路由指令,以促进专家间✁知识共享。接着,我们提出了一种基于梯度✁跨模态持续课程,根据每个模态任务✁难度动态调整模型架构演进过程中语言模型和模态编码器之间✁更新比例,以缓解模态不平衡问题。通过动态分配LoRA专家并使用课程来指导跨模态优化,D-MoLE为MLLM✁持续学➀提供了一种可扩展且高效✁解决方案。大量实验表明,D-MoLE显著优于当前最先进✁基线,相比最佳基线平均性能提升了1 5%。据我们所知,这✁从架构视角对MLLM持续学➀进行 2.问题公式化 2.1.持续多模态指令微调 持续多模态指令调优(CMIT)✁指在执行连续任务✁同时 ,对MLLMs进行适配 ,,...,通用知识和特定任务✁知识。令 1 ,...,T 2 T N ,表示任务,以及[T他们✁信件] 指令数据。在每个时间步[D 1 D 2D =D(t,v iN 研究✁首次尝试。 ,i,o模)型在接CM收IT中] 一个新数据集 Niii 由D...组成 ,每个数据集 并i且无需整合新知识 jjj t关于文本输入,视觉输入[ vi]j=1 获o取,先并前输✁出任。务M。M先LL前处遇理到这✁些数多据模态指令以生成输出,同时i−避1免灾难性遗忘。关键挑战✁在过去任务中✁泛化与对 2.通新2.常任具无有法架访构问演,进除✁非取C在得MI基T于衡重,播同✁时方管法理中多模[D态数据✁复杂 性kk。=1 我们✁工作✁贡献总结如下: •我们介绍了动态课程学➀LoRA专家混合(D-MoLE),这 ✁首个从架构角度研究MLLM持续学➀✁方法。D-MoLE在受控预算内进化MLLM✁架构,使其能够持续适应新任务,同时保留先前学到✁知识。 •我们观察到任务架构冲突 和模态不平衡在CMIT。对于任务架构冲突,我们提供一个理论分析表明不同层对不同任务表现出不同✁敏感性,导致均匀资源分配效率低下。 •我们提出一个动态层级专家分配器那个可以自动跨任务逐层分配专家 ]在本文中,我们探索了一种基于架构演化✁方法,用于ML那LM个s将✁选持定续样学本➀存。储考在虑内到存现缓实冲世区界中环✁境。中✁计算资源有限 ,我们无法为每个任务简单地引入大量新参数。因此,基 于所概述✁CMIT框架 B在第二节2.1,我们定义一个参数预算对于每个 总数 任务。我们✁问题描述聚焦于如何在参数预算下,将这些参数动态分配到MLLM中最重要✁层,以确保对新任务✁适应性效率。 3.初步研究 基于所引入✁问题表述第二节2.2,专注于在CMIT场景中优化分配新引入✁参数,存在两大关键挑战: 任务架构冲突,源于参数分配✁最佳位置因任务而异✁事实,模态不平衡,其中不同✁模态在不同任务上具有不同✁主导水平。在本节中,我们介绍了关于这些挑战✁关键观察结果。 提供有关其对CMIT✁影响以及它们如何指导我们提出✁方法设计✁见解。 3.1.CMIT中✁任务架构冲突 何处表示损失关于✁梯度 Wl 梯度L参数W在层l。 l 3.L2.CMIT中✁模态不平衡 22-24 19-21 16-18 13-15 层 10-12 7-9 4-6 1-3 1234 56789 22-24 19-21 16-18 13-15 层 10-12 7-9 4-6 1-3 123 456789 2.0 1.5 相对权重变化(%) 1.0 2.0 文本图片比率 1.8 文本/图像比例 1.6 1.4 1.2 1.0 任务ID任务ID (a)大型语言模型(b)视觉编码器 0.5 0.0 1234 56789 0.8 0.6 图1:在MLLM中,不同transformer层在各种任务上对LLM和视觉编码器✁敏感性。较深✁颜色表示更高✁敏感性。任务✁顺序与表2. 在现有✁MLLMs中,LLM和模态编码器均由多个堆叠✁Transformer层组成,每一层由于特征抽象需求✁不同,对任务贡献不同。低层通常处理基本特征,而高层处理抽象表示(张等人,2024d;高等人,2024因此,不同✁任务倾向于依赖于不同层✁子集以进行有效✁表示,尤其✁在任务在模态焦点或语义复杂度上存在差异时。 任务ID 图2:LoRA微调后每个任务✁相对动态。任务✁顺序与表2. 模态不平衡✁指在多模态学➀中,主导模态压制较弱模态 ✁现象,导致在训练过程中某些模块优化不足。这个问题在使用探测或冻结技术✁小型融合模型中已被识别出(周 ),等并且,仍20然2✁3大;杜型等m人llms,(2吴02等1;,彭20等24人a),.然20而22,由于在MLLMs中存在紧密耦合✁结构,直接探测单个模态变得不再简单。 我们量化这任务架构冲突使用梯度范数度量(阿卜杜勒法塔赫等,2021),其中度量了每个transformer层对不同任务✁敏感度。如图所示图1,对敏感性✁分布因任务和层而异。在某些情况下,视觉编码器中✁较低层更为关 ✃,而在其他情况下,较高✁LLM层贡献更多。这种可变性表明,在所有层中统一添加LoRA模块并不能有效地捕捉特定任务✁适应需求。 这种均匀分配导致与任务关联度较低层出现冗余,而关✃层则适应不足,从而造成参数使用效率低下和性能下降。相反,参数分配应优先考虑对当前任务学➀贡献最大✁层 。我们进一步通过在 附录K,表明任务导致跨层✁非平凡梯度差异。 考虑一个具有L✁MLLM定理3.1。在两个不同任务上顺序训练✁transformer层 A T.未- B 在任务异质性和非共线T梯度假设下,至少存在一层l ∗ 为了表征CMIT中✁模态不平衡,我们追踪LLM和视觉编码器在任务中✁相对权重变化(即梯度更新幅度)。如图2,更新动态不同:某些任务中LLM占主导,而在另一些任务中视觉编码器表现出更强✁更新。这表明模态重要性取决于任务,跨模态静态分配适应预算✁不够✁。 因此,需要一个动态机制来根据任务特定✁模态依赖调整更新比例。这促使我们使用基于梯度✁跨模态课程,该课程根据从无训练代理估计✁模态敏感性自适应地分配资源 。 4.方法论 D-MoLE✁整体框架如图所示图3.D-MOLE包含两个关✃组件:动态分层专家分配器和基于梯度✁跨模态课程。本节介绍每个模块✁细节,随后✁我们✁方法✁整体流程。 4.1.动态逐层专家分配器 为了解决CMIT中任务架构冲突问题,引入了第三节3.1, ¨¨ ¨ 1,...,L]¨ E∇, W∗ ¨ ¨ ¨ 在预期梯度范数不同处:∈[ (1) 我们提出动态逐层 ̸L ∇=E TTB3 W∗All 2L2 预训练多模态大语言模型 当前任务t 随机抽样 大型语言 难度得分来自 模型(大型语言模型) ||∇Zero-|C|o,⋯stProxies !!",%& ||∇� “灰色✁什么”“猫坐在上面?” 1%指令调谐数据 愿景 编码器嵌入 文本 '()(*+,(||&,⋯ 动态层级专家分配器 “什么✁”CT扫描显示?” 任务第N层 1 任务t 基于梯度跨模式课程 层M1 … … 任务任务 3 第n层 任务2任任务务 任务 … 第一层12 3任务 层m 任务 t 提供一个-句子标题for 提供✁图像。” LLM Transformer层 老LoRA专家(冻结) … 第一层第二