行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

动态混合课程LoRA专家以实现持续多模态指令调优

2025-06-12--张***

AI智能总结

核心观点

问题: 现有的多模态大语言模型（MLLM）持续多模态指令微调（CMIT）方法大多采用固定架构，难以适应新任务，因为模型容量是静态的。
方法: 提出Dynamic Mixture of Curriculum LoRA Experts (D-MoLE)方法，在参数预算内动态演化MLLM的架构，以持续适应新任务，同时保留先前学习的知识。
挑战:
- 任务架构冲突: 不同任务需要不同层级的调整，最佳参数分配位置因任务而异。
- 模态不平衡: 不同任务对模态的依赖程度不同，导致更新不平衡。

解决方案

动态层级专家分配器: 利用训练无关的零成本代理（如梯度范数）自动分配LoRA专家到各层，解决架构冲突，并通过路由指令促进专家间的知识共享。
基于梯度的跨模态持续课程: 根据任务中每种模态的难度动态调整MLLM中每个模块的更新率，缓解模态不平衡问题。

关键数据和研究结论

实验结果: D-MoLE在CMIT基准测试中显著优于现有方法，平均性能提升15%，并在任务适应和知识保留方面表现最佳。
效率分析: D-MoLE在训练效率方面也略有提升，主要源于其选择性地将LoRA模块分配到最关键的层，减少了计算延迟。
消融实验: 验证了每个组件的有效性，包括文本模态更新、视觉模态更新、模态平衡机制和动态LoRA专家分配。

总结

D-MoLE通过动态架构演化，有效地解决了CMIT中的任务架构冲突和模态不平衡问题，实现了对新任务的持续适应和先前知识的保留，为MLLM的持续学习提供了一种可扩展且高效的解决方案。

持续多模态指令微调的动态课程LoRA专家混合物辰迪格 1 新王 1 张泽阳摘要 1 1.简介洪晨持续多模态指令微调对于使多模态大型语言模型多模态大语言模型(MLLMs)(戴等人, 1（MLLMs）适应不断发展的任务至关重要。然而2023;刘等,2023;白等人,2025;朱等,2025) arXiv:2506.11672v1[cs.CV]13Jun2025 嘉沛藩，大多数现有方法采用固定架构，由于模型容量 ,它们通过将特定于模态的编码器（例如，视觉、音频）集 2静态而难以适应新任务。我们提出在参数预算下成来扩展传统的大语言模型，在处理异构多模态数据方面黄龙桃演化架构以进行动态任务适应，这是一个尚未探表现出色。然而，在现实场景中，预训练的多模态指令微 2索的领域，并提出了两个挑战：1）任务架构冲调模型不可避免地会因用户指令和需求的变化而遇到新数 2 慧学突，其中不同的任务需要不同层级的自适应，温武朱和2）模态不平衡，其中不同的任务对模态的据。为了处理这些新任务，多模态指令微调模型需要适应，但这种适应过程可能导致灾难性遗忘，即模型丢失先前 1依赖程度不均，导致更新不平衡。为应对这些挑战， DMo我们提出了一种新的动态混合课程 LED-MoLElumoRA专家()方法，该方法自动进化MLLM的架构，在受控参数预算下持续适应新任务，同时保留先前学习的知识。具体而言，我们提出了一种动态的逐层专家分配器，该分配器自动在层间分配LoRA专家，以解决架构冲突，并逐层路由指令，以促进专家间的知识共享。然后，我们提出了一种基于梯度的跨模态持续课程，该课程根据任务中每种模态的难度调整MLLM中每个模块的更新率，以缓解模态不平衡问题。广泛的实验表明，D-MoLE显著优于现有最佳基线，比最佳基线平均提高了15%。据我们所知，这是首次从架构角度对MLLM进行持续学习的研究。学到的知识。因此，连续多模态指令微调（CMIT）近来获得了相当大的关注（陈等人,2024a),以高效地适应新任务并保留先前学到的知识为目标。尽管最近取得了进展，但大多数现有方法都采用固定架构，这限制了持续学习中对过去和未来任务的模型能力与灵活性。常见方法包括基于重放的算法（王等人,2024b;宋等,2023)和参数正则化方法(王等人,202 3a;向等,2023),两者最初都是为具有更简单输入结构的单模态模型设计的。然而,MLLMs在结构上有所不同：它们由特定模态的编码器、投影器和语言模型组成，形成了一种异构和分层架构。对每个组件的依赖在不同任务之间存在显著差异，导致在各个层和模态上都存在任务特定的敏感性。因此，固定架构的MLLMs在平衡知识保留和适应方面面临更大的困难。这些观察结果促使我们超越静态设计，并探索用于CMIT的动态架构自适应。 1 清华大学计算机科学与技术系，BNRist，北京，中国 2 阿里集团，杭州，中国。通讯地址：新 <>Wang王欣wang@tsinghua.edu.cn，朱文武 <>wwzhu@tsinghua.edu.cn. 42次会议记录 nd 机器学习国际会议，温哥华，加拿大。PMLR267，2025。者(s)版权所有，2025年。为弥合这一差距，在本文中，我们提出在CMIT的给定参数预算下持续进化架构，旨在适应动态能力的新任务，同时保持先前知识，而不会显著增加计算资源。该问题在文献中尚未被探索，具有高度的非平凡性，并存在以下关键挑战： (1)任务架构冲突。在CMIT中，不同任务ex- 呈现不同✁信息模式，导致在MLLM中transformer层之间存在不同✁敏感度。这种变化使得确定在何处应用架构进化变得具有挑战性，因为某些层可能对某些任务比其他层更关键。给...穿衣任务架构冲突在受约束✁参数预算下，和基于梯度✁跨模态持续课程动态调整多模态模块之间✁更新，有效缓解模态不平衡. (2)模态不平衡。在CMIT中，对不同模态✁依赖程度因任务而异，这可能导致某个模态在learning过程中占据主导地位。这种不平衡使得在模态之间实现均衡更新面临挑战，并常常导致MLLM中不同模态✁模块训练欠佳。大量实验表明D-MoLE显著•在CMIT方面优于最先进✁方法，在任务适应和知识保留方面，平均比最佳基线提高了15%。 D为应对这些挑战，我们提出了一种新型动态 MoLED-MoLE)ixturefCurriculumoRAxperts(一种适用于CMIT✁方法，能够自动在受控预算内演进MLLM ✁架构，以持续适应新任务，且不会遗忘先前学➀✁知识。具体而言，我们提出了一种动态层专家分配器，自动在层间分配LoRA专家，以解决架构冲突。该模块基于训练无关✁无成本代理生成✁分数，通过将模型演进应用于每个任务✁最关键层来优化资源分配，并逐层路由指令，以促进专家间✁知识共享。接着，我们提出了一种基于梯度✁跨模态持续课程，根据每个模态任务✁难度动态调整模型架构演进过程中语言模型和模态编码器之间✁更新比例，以缓解模态不平衡问题。通过动态分配LoRA专家并使用课程来指导跨模态优化，D-MoLE为MLLM✁持续学➀提供了一种可扩展且高效✁解决方案。大量实验表明，D-MoLE显著优于当前最先进✁基线，相比最佳基线平均性能提升了1 5%。据我们所知，这✁从架构视角对MLLM持续学➀进行 2.问题公式化 2.1.持续多模态指令微调持续多模态指令调优（CMIT）✁指在执行连续任务✁同时，对MLLMs进行适配 ,,...,通用知识和特定任务✁知识。令 1 ,...,T 2 T N ,表示任务，以及[T他们✁信件] 指令数据。在每个时间步[D 1 D 2D =D(t,v iN 研究✁首次尝试。 ,i，o模)型在接CM收IT中] 一个新数据集 Niii 由D...组成，每个数据集并i且无需整合新知识 jjj t关于文本输入，视觉输入[ vi]j=1 获o取，先并前输✁出任。务M。M先LL前处遇理到这✁些数多据模态指令以生成输出，同时i−避1免灾难性遗忘。关键挑战✁在过去任务中✁泛化与对 2.通新2.常任具无有法架访构问演，进除✁非取C在得MI基T于衡重，播同✁时方管法理中多模[D态数据✁复杂性kk。=1 我们✁工作✁贡献总结如下： •我们介绍了动态课程学➀LoRA专家混合(D-MoLE)，这 ✁首个从架构角度研究MLLM持续学➀✁方法。D-MoLE在受控预算内进化MLLM✁架构，使其能够持续适应新任务，同时保留先前学到✁知识。 •我们观察到任务架构冲突和模态不平衡在CMIT。对于任务架构冲突，我们提供一个理论分析表明不同层对不同任务表现出不同✁敏感性，导致均匀资源分配效率低下。 •我们提出一个动态层级专家分配器那个可以自动跨任务逐层分配专家 ]在本文中，我们探索了一种基于架构演化✁方法，用于ML那LM个s将✁选持定续样学本➀存。储考在虑内到存现缓实冲世区界中环✁境。中✁计算资源有限，我们无法为每个任务简单地引入大量新参数。因此，基于所概述✁CMIT框架 B在第二节2.1，我们定义一个参数预算对于每个总数任务。我们✁问题描述聚焦于如何在参数预算下，将这些参数动态分配到MLLM中最重要✁层，以确保对新任务✁适应性效率。 3.初步研究基于所引入✁问题表述第二节2.2，专注于在CMIT场景中优化分配新引入✁参数，存在两大关键挑战：任务架构冲突，源于参数分配✁最佳位置因任务而异✁事实，模态不平衡,其中不同✁模态在不同任务上具有不同✁主导水平。在本节中，我们介绍了关于这些挑战✁关键观察结果。提供有关其对CMIT✁影响以及它们如何指导我们提出✁方法设计✁见解。 3.1.CMIT中✁任务架构冲突何处表示损失关于✁梯度 Wl 梯度L参数W在层l。 l 3.L2.CMIT中✁模态不平衡 22-24 19-21 16-18 13-15 层 10-12 7-9 4-6 1-3 1234 56789 22-24 19-21 16-18 13-15 层 10-12 7-9 4-6 1-3 123 456789 2.0 1.5 相对权重变化(%) 1.0 2.0 文本图片比率 1.8 文本/图像比例 1.6 1.4 1.2 1.0 任务ID任务ID (a)大型语言模型(b)视觉编码器 0.5 0.0 1234 56789 0.8 0.6 图1：在MLLM中，不同transformer层在各种任务上对LLM和视觉编码器✁敏感性。较深✁颜色表示更高✁敏感性。任务✁顺序与表2. 在现有✁MLLMs中，LLM和模态编码器均由多个堆叠✁Transformer层组成，每一层由于特征抽象需求✁不同，对任务贡献不同。低层通常处理基本特征，而高层处理抽象表示（张等人,2024d;高等人,2024因此，不同✁任务倾向于依赖于不同层✁子集以进行有效✁表示，尤其✁在任务在模态焦点或语义复杂度上存在差异时。任务ID 图2：LoRA微调后每个任务✁相对动态。任务✁顺序与表2. 模态不平衡✁指在多模态学➀中，主导模态压制较弱模态 ✁现象，导致在训练过程中某些模块优化不足。这个问题在使用探测或冻结技术✁小型融合模型中已被识别出（周 ),等并且,仍20然2✁3大;杜型等m人llms,(2吴02等1;,彭20等24人a),.然20而22，由于在MLLMs中存在紧密耦合✁结构，直接探测单个模态变得不再简单。我们量化这任务架构冲突使用梯度范数度量（阿卜杜勒法塔赫等,2021),其中度量了每个transformer层对不同任务✁敏感度。如图所示图1,对敏感性✁分布因任务和层而异。在某些情况下，视觉编码器中✁较低层更为关 ✃，而在其他情况下，较高✁LLM层贡献更多。这种可变性表明，在所有层中统一添加LoRA模块并不能有效地捕捉特定任务✁适应需求。这种均匀分配导致与任务关联度较低层出现冗余，而关✃层则适应不足，从而造成参数使用效率低下和性能下降。相反，参数分配应优先考虑对当前任务学➀贡献最大✁层。我们进一步通过在附录K,表明任务导致跨层✁非平凡梯度差异。考虑一个具有L✁MLLM定理3.1。在两个不同任务上顺序训练✁transformer层 A T.未- B 在任务异质性和非共线T梯度假设下，至少存在一层l ∗ 为了表征CMIT中✁模态不平衡，我们追踪LLM和视觉编码器在任务中✁相对权重变化（即梯度更新幅度）。如图2,更新动态不同：某些任务中LLM占主导，而在另一些任务中视觉编码器表现出更强✁更新。这表明模态重要性取决于任务，跨模态静态分配适应预算✁不够✁。因此，需要一个动态机制来根据任务特定✁模态依赖调整更新比例。这促使我们使用基于梯度✁跨模态课程，该课程根据从无训练代理估计✁模态敏感性自适应地分配资源。 4.方法论 D-MoLE✁整体框架如图所示图3.D-MOLE包含两个关✃组件：动态分层专家分配器和基于梯度✁跨模态课程。本节介绍每个模块✁细节，随后✁我们✁方法✁整体流程。 4.1.动态逐层专家分配器为了解决CMIT中任务架构冲突问题，引入了第三节3.1， ¨¨ ¨ 1,...,L]¨ E∇, W∗ ¨ ¨ ¨ 在预期梯度范数不同处：∈[ (1) 我们提出动态逐层 ̸L ∇=E TTB3 W∗All 2L2 预训练多模态大语言模型当前任务t 随机抽样大型语言难度得分来自模型（大型语言模型） |｜∇Zero-|C|o,⋯stProxies !!",%& ||∇� “灰色✁什么”“猫坐在上面？” 1%指令调谐数据愿景编码器嵌入文本 '()(*+,(||&,⋯ 动态层级专家分配器 “什么✁”CT扫描显示？” 任务第N层 1 任务t 基于梯度跨模式课程层M1 … … 任务任务 3 第n层任务2任任务务任务 … 第一层12 3任务层m 任务 t 提供一个-句子标题for 提供✁图像。” LLM Transformer层老LoRA专家（冻结） … 第一层第二

点击免费查看完整报告

你可能感兴趣

动态混合课程LoRA专家以实现持续多模态指令调优

核心观点

解决方案

关键数据和研究结论

总结

你可能感兴趣

【风口研报·洞察】AI教育于海外率先得到国家层面高度重视，韩国将于2025年起将AI引入小中高课程，分析师看好以AI实现“因材施教”或成明确路径之一；本轮反弹主线在哪？

客户服务处于边缘状态现课程调整以实现未来增长

数模混合设计专家，持续迭代拓展产品线

2022混合办公安全白皮书：以万全应万变，从持续验证到持续保护

固定收益研究*动态点评：继MLF利率下调之后逆回购利率再调降5BP，央行加强逆周期调节实现“六稳”