AI智能总结
¨ 多模态小语言模型(MSLMs)是紧凑的<多模态模型(7B参数)针对效率和边缘部署进行了优化。不同于资源密集型的大型语言模型(MMLLM)如GPT-4o [8] 和 InternVL2-72B [11],多模态小型语言模型(MSLM)在性能与可访问性之间寻求平衡 [10], [15]。最近的例子包括 PaliGemma [15], PaliGemma 2 [16] 和 Qwen2-VL-2B [10],其中模型参数规模小至2-3B。InternVL2.5 [11] 引入了1B和2B版本,而 MolmoE-1B [17] 采用专家混合(Mixture of Experts)方法,仅使用1.5B个活跃参数。CoT推理在大模型中最有效,而小模型在复杂任务上则表现不佳[21]。为缓解错误传播[22],研究人员已开发出多种方法:基于逐步人类反馈的过程监督[22]、基于过程监督[23]、用于推理增强的Math-Shepherd[24]、用于自我纠正的SCoRe[48]、TS-LLM的树搜索框架[49]以及用于定理证明的AlphaGeometry[50]。CoT 提示和推理模型。LLMs中的推理概念源于思维链(Chain-of-Thought, CoT)提示。Nye等人[20]提出了用于多步计算的草稿板(Scratchpad)方法。Wei等人[21]对CoT进行了形式化,并在大型模型的各项推理任务中取得了显著改进。Wang等人[42]提出了自洽性(Self-Consistency),通过聚合多条推理路径。Gao等人[43]开发了使用Python进行推理的程序辅助语言模型,而Yao等人[44]创建了思维树(Treeof Thoughts),将推理结构化为树状形式用于评估和回溯。尽管以数学为核心的推理模型已取得进展,OpenAI 的 o1 [25] 和 o3-mini [26] 系列通过强化学习设立了新的基准。DeepSeek 的开源 DeepSeek-R1 [27] 在无需监督微调的情况下提升了推理能力。其 DeepSeek-R1-Zero 变体使用大规模强化学习进行自我进化的推理,但面临语言混合问题。DeepSeek-R1 通过冷启动数据和多阶段训练解决这些问题,性能与 OpenAI-o1-1217 相当。借助组相对策略优化 (GRPO) [28],它在提升数学推理能力的同时保持了效率。通过蒸馏,DeepSeek-R1 的能力可迁移至架构,其中LLaVA-NeXT [40]通过高分辨率输入和改进的OCR增强视觉感知。其他贡献包括Qwen-VL [41]、InternVL [11]和谷歌的PaliGemma [15],而Molmo [17]通过发布完整的训练数据和评估框架建立透明度。尽管多任务语言模型(MSLMs)最初被设计为通用模型,但它们在特定任务的领域表现出色。研究[18]、[19]表明,在针对特定任务进行专门化后,小型语言模型可以超越大型模型,从而在效率与适应性方面具备优势。张等人[45]介绍了多模态思维链,集成文本和图像进行复杂推理。胡等人[46]提出了用于LLM生成视觉表示的视觉草图板,而李等人[47]开发了基于图像的多模态思维可视化(MVoT)。这些进展展示了多模态推理能力在LLM中日益增长的重要性。 ×2024××××××××2025××✓✓✓✓II. 相关工作方法年 开放 RS 适应 RL 推理RSGPT [35] 2023 ✓ ✓GPT-4o [8]Qwen2-VL [10] 2024 ✓EarthGPT [34] 2024 ✓ ✓GeoChat [33] 2024 ✓ ✓LHRSBot [36] 2024 ✓ ✓o1-o3 [25]MilChatOurs大型语言模型。Transformers [37] 的引入革命化了大型语言模型(LLMs),使得BERT [38] 实现了双向上下文建模,GPT [1] 实现了自回归预训练。这些进步催生了像GPT-3 [2] 这样具有类人文本生成能力的顶尖模型。LLaMA系列 [4] 证明了更小、更高效训练的模型可以超越像GPT-3这样的大型模型。开源替代方案,如Qwen [5]、InternLM [6] 和Google的Gemma [13],自那以来扩展了对强大LLMs的访问。视觉-语言模型(VLMs)的早期进展通过实验发现,通用的领先型多模态语言模型(MLLMs)和遥感(RS)特定模型在处理偏远地区航空影像时存在困难。然而,提出的MilChat-R1模型在MilData测试集上表现出鲁棒性,召回率达到80%以上,精确率高达98%。采用DeepSeek-R1的推理数据微调(SFT)和GRPO方法,MilChat-R1能够有效解释任何航空影像,同时保持轻量化,适用于军事和民用场景中的边缘设备。在2B参数量下,它是目前最紧凑的边缘可部署的遥感特定语言模型。本文的贡献如下:例如,CLIP [39] 使用对比学习来对齐图像和文本,提升了零样本能力。将视觉语言模型(VLMs)与大型语言模型(LLMs)的集成创建了多模态大型语言模型(MLLMs),以GPT-4V [7] 为例。在开源领域,LLaVA系列 [9]结合了CLIP与LLaMA为了通过思维链答案改进推理。使用GRPO,最终模型MilChat-R1为航拍图像生成长度简洁的解释。我们介绍了MilData,一个具有挑战性的数据集。•对专家验证的卫星图像中偏远地区进行的评估,特别是导弹发射场。这些场所在高度多样化并且由于其复杂性质而难以解读。我们提出了基于GRPO的关键词奖励函数,•据我们所知,这是首个用于特定领域多模态语言模型的基于强化学习的训练方法。我们介绍了MilChat模型家族,这是一组面向任务的•:专门用于回答有关空中图像的开放式问题的2B参数MSLMs。通过严格的实验,我们证明了•该模型在开放式问题上表现优于现有的通用型及RS专用型MLLM,即使这些模型的参数规模显著更大——这一表现通过基于关键词的精确率和召回率得分进行衡量。表I A我们方法与先前工作的比较研究.O PEN: O PEN 源模型, RS AADAPTED:A适应当地感问题与特定领域数据, RL R EASONING:TRAINED AS REASONING MODEL WITH ANRL基于方法. III. 数据集张等人 [34] 介绍了 EarthGPT,这是一个通过视觉增强感知和跨模态理解统一遥感任务的多模态大型语言模型,使用涵盖光、雷达和红外模态的 MMRS-1M 数据集进行训练。巴齐等人 [35] 呈现了 RS-LLaVA,这是一个用于字幕和视觉问答的多模态大型语言模型,使用 LoRA在 RS-instructions 上进行微调,在多任务效率方面优于先前模型。穆特哈尔等人 [36] 开发了 LHRS-Bot,这是一个利用志愿者地理信息和全球遥感图像的多模态大型语言模型,得到 LHRS1-Align(115万个图像-字幕对)和 LHRS-Instruct 数据集的支持,其中包含 GPT-4 生成的推理任务。这些进步展示了人工智能在卫星图像分析的语义推理和空间理解方面的改进。虽然这些模型通常设计用于字幕构建一个高质量的数据集对于模型的训练和评估至关重要。本研究中的数据集包括带有标注的卫星图像,这些标注表明是否存在军事设施。数据主要来自两个来源:(a)可能包含军事设施(具体为防空导弹(SAM)站点)的图像,以及(b)作为负例的民用住宅区图像。正面(军事)范例:一份已知的或可疑的清单遥感多语言大语言模型随着多模态大型语言模型(MLLM)在视觉任务上的成功,早期模型开始探索遥感能力。胡等人[32]提出了用于遥感图像分析的RSGPT,开发了RSICap(2,585个人工标注的描述)和RSIEval基准。库克雷贾等人[33]介绍了GeoChat,这是一个用于交互式、空间感知卫星图像分析的多模态大型语言模型,通过318k指令数据集支持多任务交互,并通过LoRA调适的微调[51]实现了卓越的零样本泛化能力。或VQA,并由问题中提供的特定场景提示进行指导,它们并非在回答开放式问题(如)方面的能力上进行定量测试。详细解释图像。此外,迄今为止,还没有针对RS领域专门设计的基于多模态RL的推理模型。尽管这些推理模型优于标准语言模型,但它们仍然是通才型模型且缺乏针对特定任务的微调,这限制了它们的全部潜力。此外,虽然 OpenAI 的闭源 o 系列(o-series)模型支持多模态推理,但 DeepSeek-R1 不支持。然而,GRPO 为开源项目开辟了一条将任何 LLM 或 MLLM 转换为推理模型的路径 [29]–[31],从而能够生成针对特定任务、多模态、小型的推理模型。已获取军事设施信息。特别是,使用了全球萨姆导弹发射场的开源KMZ文件[52],该文件包含由卫星图像爱好者提供的全球萨姆导弹发射场坐标,从而产生了数百个候选地点。通过卫星图像API,在 这些坐标位置获取了高分辨率(1024x1024)的俯视图像较小的模型(1.5B–70B参数),表现优于先前模型。 图2. 一些SAM站点航空影像的多样化示例。Negative (Civilian) Examples:为训练和测试模型避免误报的能力,收集了大量不包含军事设施图像的数据集。使用公共的“世界城市”列表[53]随机采样全球城市中心坐标,并获取这些区域周围的图像。为避免数据偏向于仅城市景观,对坐标添加了轻微的随机扰动,从而生成可能包含郊区、农田或城市附近空旷区域的图像块。初始阶段收集了数千张随机图像,以提供多样地形和民用基础设施的广泛样本。已被下载。在一位军事航拍图像专家的帮助下,对这些图像进行了分析,以确定当前图像中是否存在军事区域。已收集了318张图像,代表129个不同的防空导弹(SAM)站点。这些图像的清晰度各不相同——有些显示了典型的圆形导弹发射阵地布局,而另一些则更为隐蔽(例如小型设施或部分被地形遮挡)。示例可见图2。为此为这些图像添加标题,一个开源的多模态大型语言模型(MLLM)被用作标注器。具体而言,Qwen2-VL-72B(该系列中最大的模型)被提示为每张图像生成一个包含4-6个句子的详细标题。提示始终被给出:详细解释图片,用4-6句话。如果生成的标题明确提到了与军事相关的词语,如“军事”、“导弹”或“发射井”,则该图像被标记为包含军事设施,并归类为类别0(C0)。在模型未提及军事术语的图像中,如果人类专家将其标记为军事场所,则仍将其保留为阳性示例。这些代表基线模型未能识别该场所军事性质的情况,归类为类别1(C1)。从负例中采样的图像被归类为类别2(C2)。 IV. 方法A. 模型架构在测试集上,从C0中选择了15张剩余图像用于检查验证性能,而C1中剩余的188张军事图像(每张来自训练集中未出现的不同地点)则被全部纳入,以衡量模型在更难样本上的性能,这些样本是72B模型无法处理的。最后,增加了C2中的100张民用图像,以评估模型是否因错误地将非军事图像分类为军事图像而出现过拟合。在训练集中,从C0中选取了101张图片及其由Qwen2-VL模型生成的描述作为正例,同时增加了200张随机选取的民用图片作为负例(C2),这些图片分别代表住宅、工业或自然场景,且无明显的军事存在。在这项工作中,提出了MilChat模型家族,以利用大规模语言模型(MLLMs)在遥感图像推理和理解方面的潜力。这部分解释了MilChat的模型架构和训练方法。视觉编码器:与Qwen2-VL-2B相似,MilChat中的视觉编码器采用了视觉Transformer(ViT)架构[54],具有675M参数。在训练和推理过程中,该编码器集成了朴素动态分辨率支持[55],使其能够通过动态转换将不同分辨率的图像处理为可变数量的视觉标记。MilChat 使用 Qwen2-VL-2B [10] 作为基础模型,采用其预训练权重并遵循其架构: B. 培训位置感知视觉-语言适配器:基于Qwen2-VL-2B,MilChat通过引入一个压缩