阿勒鲁维利·苏丹 1*,萨米赫·尤内斯 2*,弗雷哈特·阿布德哈ким 3,埃斯沃兰·马坦·库马尔 1 1 IBM Research AI,利雅得,沙特阿拉伯2 IBM Research AI,阿布扎比,阿联酋3 Mohamed bin Zayed 大学人工智能,阿布扎比,阿联酋 {sultan.alrowili,younes.samih}@ibm.com 其他高资源语言。然而,阿拉伯语视觉语言模型的发展却明显缓慢,导致多模态推理在阿拉伯语中的应用相对未被充分探索。 摘要 大规模视觉问答(VQA)数据集的开发传统上依赖于资源密集型的人工标注。此外,现有的大多数阿拉伯语VQA数据集主要集中在具有文化特异性和方言感知的领域。为了解决这些局限性,我们提出了一种新流程,该流程利用维基百科模板标签提取每张图像的相关信息,随后利用大型语言模型(LLM)综合生成一个新的视觉问答数据集。使用该流程,我们构建了AraVQA,这是最全面的阿拉伯语事实性视觉问答数据集,包含超过50,000个问题,涵盖阿拉伯语一般知识中超过20个不同的主要主题。我们的详细分析表明,我们的数据集可以用作后训练数据集,以提升现有视觉语言模型(VLMs)在阿拉伯语VQA任务上的性能。此外,我们基于我们的数据集并提出了一个新基准,该基准通过人工标注进行验证,比现有的阿拉伯语VQA数据集对阿拉伯语VLMs提出了更大的挑战。 现有的基准测试,如Henna(Alwajih等人,2024年)、CAMEL-Bench(Ghaboura等人,2025年)、Pearl(Alwajih等人,2025年)和JEEM(Kadaoui等人,2025年),为评估阿拉伯视觉语言模型(VLMs)提供了宝贵的基准。然而,这些资源主要侧重于具有文化基础、对方言敏感的任务,或者无法公开获取(例如CAMEL-Bench)。Henna和Pearl专注于文化突出的领域,如美食、服饰和地标,而JEEM则评估跨方言的图像描述和视觉问答。尽管这些数据集丰富了评估的文化和语言范围,但它们并未系统地探究百科和事实性知识——这是评估VLMs能否将视觉输入与常识推理相结合的核心领域。开发此类资源面临重大挑战:大规模图像-问题-答案标注成本高昂,将图像与相关上下文关联需要大量工作,以及基于翻译的适应性存在局限,它往往忽略了阿拉伯语特有的内容和方言。 1 简介 为Ara设计的大型语言模型降低了语言质量。 使用 ALLaM(Bari 等人,2024)、Jais(Sengupta 等人,2023)、Arabic(Alnumay 等人,2025)等系统,包括 ArabicMMLU(Koto 等人,2024)和 ArabicEXAMS(Hardalov 等人,2020)基准测试。毕克(Bic)最近取得了重大进展,为弥合这一差距,我们引入了AraVQA。), 首个大规模阿拉伯事实性视觉问答), 并使用 Command R7B 数据集。我们的方法利用了结构) 为阿拉伯语维基百科建立新的自然可供性以自动最先进的结果在知识密集型配对图像与相关标题上段落级别的文本语境。然后这些配对是 这些进步表明了全设计提示的快速成熟,以生成一个多阿拉伯自然语言处理(NLP)在文本选择阿拉伯视觉问答数据集上的结果。仅限域名,特别是对于需要面对数据集的任务,是完全自动和可扩展的推理能力与广泛领域覆盖。提供广泛的主题覆盖范围,延伸良好并行,视觉语言模型(VLMs)已超越了现有基准的文化关注点。英语多模态研究的转型,明确针对事实性知识和世界知识。 域名,而其底层的生成管道 平等贡献。 第64届计算语言学协会年会论文集(第一卷:长文),第2026-2042页,2026年7月2-7日,©2026 计算语言学协会 guages.它富有弹性且适用于维基百科,是一个轻量级适配器,用于保持细粒度感知。因此,这项工作的主要贡献在于表明,大规模多模态对齐是...实际信号。这些模型共同支持感知与推理之间的交互。然而,它们的成功取决于庞大的 概述如下: 我们引入以英语为中心的数据,这是Ara所缺乏的先决条件。构建一个全自动化的流水线,利用杠杆。• 自动化生成流程对阿拉伯语维基百科和大规模LLM进行老化处理,以综合生成高质量的阿拉伯语文本,并提高我们流程的准确性和可靠性。一条补充的轨迹,视觉指令 Xu等人,2023年 ;Li等人,2023a;Liu等人,2023b)已经表 无需昂贵的手动标注调优,VQA数据已使多模态监督实现了规模化。或依赖翻译。我们通过自动生成指令-响应来进行质量控制。分析显示,生成的超过94%的配对。MULTIINSTRUCT问题有效,突出了稳健的MIMIC-IT和LLaVA-Instruct。明,合成数据可以统一字幕生成、视觉问答和推理任务。 • AraVQA数据集确立了其作为首个大规模重新使用此管道,我们定义了一个共享模式。然而,这些管道重新构建 AraVQA,这是目前最大的、完全基于英语的阿拉伯视觉问答(VQA)主要数据集。迁移此类一个明确设计用于支持百科方法将阿拉伯语引入非平凡的语言学足部与事实性视觉问答,以及文化挑战,因为这种语言的复杂性AraVQA 涵盖了广泛的主题,包括形态学、双语现象和文化根基性。在科学、历史、地理和文化领域,错综复杂的关系使得自动对齐变得复杂。 同类阿拉伯语中的源头。最近的阿拉伯多模态努力——Henna (孔雀)Alwajih等人(2024年),CAMEL-Ghaboura等人(2025年),珍珠(Alwajih等人,2025年),以及JEEM(Kadaoui等人,2025年)—都已采用。由我们的流程和先进的文化和方言评估自动生成。然而,这些 • 经过人工验证的基准aVQA,我们推导出一个基准子集,该子集是自Ar-Bench 随后由六位人类标注者验证的数据集强调主题领域(例如,菜系,为确保准确性和一致性(例如地标)或方言特有的推理。因此, m/mbzuai-nlp/AraVQA)对现有的阿拉伯文问答(VQA)基准工作(bench-work)进行评估和社区工具改进在现有的阿拉伯视觉问答系统中,既进行定量分析也进行定性分析(VQA)数据集。此外,对人工标注的依赖表明 AraVQA 表现出更高的针对这些数据集的筛选工作,在主题广度和难度上,比现有的更具挑战性。 可扩展性方面,这一点可以从阿拉伯VQA数据集中观察到,我们证明了生成每个数据集所使用的图像数量,以及在实际操作中对阿拉伯视觉语言模型进行微调如表A所示,AraVQA表现出可衡量的性能。 Heakl (2025) 展示了 Ara- 在 CAMEL-Bench上的可行性。然而,其改进主要源于架构规模另一方面,AIN(标记的出现。我们释放了在此使用的资源。 和双语预训练,而非阿拉伯语母语的多模态标注。此类数据集将使阿拉伯语等多模态 bic 模型,取得优异成果 2 相关工作 近期多模态大语言模型监督方面的新进展,突显了当前存在的局限性模型(MLLMs)已经揭示了有效的方法。虽然文化阿拉伯数据集已经...耦合冻结视觉编码器与预训练模型的进展虽在缩小差距方面有所成就,但仍需训练语言模型以实现统一视觉,这是一个包含通用知识的新数据集文本推理。像阿拉伯语这样的架构并不依赖于手动。将视觉嵌入投影到视觉语言模型中,以便在预训练中利用这些资源。通过门控交叉注意力或Q-微调阶段来压缩潜在空间,从而促进更全面的理解火烈鸟(Alayrac 等人,2022)和 BLIP-2(Li 等人,2023b),而 LLaVA(Liu 等人,2023a) ) 采用全面且可扩展的方法处理阿拉伯语视觉问答。 物业税。2 3 方法 如图1所示,最终数据集将所有这些组件整合为一个结构化表示,该表示包含以下字段:文章标题、文章标识符、章节标题、章节文本、图像URL、图像描述和图像许可。这种组织方式便于文本章节与视觉内容之间的下游对齐,为后续使用LLM进行多模态问答生成奠定了基础。 我们提出的方法包括三个阶段:(1) 数据收集,(2) 预处理图像元数据,以及 (3) 使用大型语言模型生成合成视觉问题。我们将分别在第 3.1 节、第 3.2 节和第 3.3 节解释这三个阶段。此外,为了评估我们流程在生成有效问题方面的质量,我们增加了一个质量控制阶段,该阶段将在第 3.4 节详细说明。 3.2 数据集预处理 3.1 数据收集 维基百科图像的尺寸属性变化给视觉-语言模型(VLMs)带来了潜在挑战,因为高分辨率输入会显著增加微调和推理成本。为标准化图像表示并确保计算效率,所有图像都被调整大小,使其最长维度(高度或宽度)不超过224像素。这个分辨率阈值是通过经验确定的:初步实验表明,将图像大小增加到768或1024像素只能带来微小的性能提升,同时带来显著的计算开销。为保持可重复性并促进未来研究,数据集保留了原始图像URL,从而在需要时可以访问完整分辨率的版本。 我们的方法论始于获取和结构化解析阿拉伯语维基百科数据转储,该数据转储保留了完整的MediaWiki模板标签集。这些标签为我们提供了丰富的元数据来源,我们利用这些数据来提取文章节、节标题以及相关的视觉元素。特别是,保留的标记使得能够将文章系统地分割成连贯的节,每一节都可以明确链接到其对应的图像和上下文片段。此外,我们从这些相同的模板中提取了图像说明、文本描述和文章级标题等辅助描述符。 使用原始维基百科数据集的一个实际挑战是,模板标签不包含完整的图片URL。为解决这个问题,我们计算每个图片文件名的MD5哈希值,并遵循维基媒体存储规范,使用该哈希值来重建对应图片资源的规范URL路径。在该规范中,MD5哈希值的第一位和前两位字符决定了通往完整图片URL的中间路径组件。 为在文本和视觉模态之间保持明确的一致性,我们排除了所有包含多张图片的章节。此外,我们移除了文本内容超过1024个token的章节,以防止在使用大型语言模型进行大规模合成生成时发生内存不足(OOM)错误。最后,我们丢弃了缺少有效图片URL的章节,以确保数据集的数据完整性和结构一致性。 第二个限制是转储中缺少明确的许可证元数据。为了恢复这些信息,我们针对每张图像查询Wikidata查询服务1,获取其版权许可信息。 3.3 合成式问题生成 我们使用基于单个NVIDIA H100 GPU的GPT-OSS-120B模型3推理框架(Kwon等人,2023年;Transformer库(Wolf等人,2020年),并遵循图2所示的教学提示进行指导。每输出限制1,024个新token。自动为加速大规模生成,我们并行地从...主题中生成多项选择题。通过向上一节所述的数据集发送并发请求来进行推断。vLLM服务器,在执行生成过程时,实现高效吞吐量保持世代质量。)和 3.4 基于人工标注的质量控制 为确保结构... 我们增加了一个质量控制阶段,旨在评估...自然一致性以及遵循预定义标准来评估视觉问答的质量 格式——例如,缺失或不完整的答案选项——六位代表不同背景的母语为阿拉伯语的人文本、占位符文本(例如,模型生成的文本)或区域性变体,每种至少有一位学士学位持有者。用“[疑问]”而非实际疑问语气,以确保语言覆盖面。 "像‘谁是图片中显示的玩家’这样的形式,例如‘评分者间信度’,测试集被划分成"“真的吗?”——在后期处理中,这六个相等的部分会自动被排除在外,且每个部分都是独立的。处理。我们进一步确保了平衡的分布,其中每个数据点都由两位标注员独立标注。因此,每个通过随机调整示例答案选项的顺序,每个答案选项会收到两个评价。这项任务接着四个候选答案(A-D)以及随后的二元决策方案(批准或拒绝),作为重新分配相应的正确标签。目标——与之前的阿拉伯资源不同——是评估 采样配置在我们的自动生成流程的精确度中起着至关重要的作用。 控制事实性和精确性,而不是收集人类编写的问题。 生成内容。鉴于我们专注于事实性视觉问答,我们采用0.1的低温设置以减少随机性,并结合0.