AI智能总结
XUEMENG SONG,山东大学,中国HAOQIANG LIN,山东大学,中国HAOKUN WEN,哈尔滨工业大学(深圳),中国和香港城市大学,中国BOHAN HOU,山东大学,中国MINGZHU XU,山东大学,中国LIQIANG NIE,哈尔滨工业大学(深圳),中国 组合图像检索(Composed Image Retrieval, CIR)是一项新兴但充满挑战的任务,它允许用户通过包含参考图像和指定用户对参考图像所需变更的修改文本的多模态查询来搜索目标图像。鉴于其重要的学术和实践价值,CIR已成为计算机视觉和机器学习领域快速增长的兴趣点,特别是在深度学习发展的推动下。据我们所知,目前尚无关于CIR的全面综述来及时概述该领域。因此,我们从顶级会议和期刊(包括ACM TOIS、SIGIR和CVPR)中综合了超过120篇出版物。我们特别使用细粒度的分类系统对现有的监督式CIR和零样本CIR模型进行分类。为进行全面综述,我们还简要讨论了与CIR密切相关的任务方法,如基于属性的CIR和基于对话的CIR。此外,我们总结了用于评估的基准数据集,并通过跨多个数据集的实验结果对比,分析了现有的监督式和零样本CIR方法。此外,我们提出了该领域的有前景的未来方向,为对该领域感兴趣并希望进一步探索的研究者提供实用见解。相关文献库的精选集合在持续维护和更新。Awesome-CIR repository. CCS概念:•信息系统→图像搜索。 附加关键词和短语:组成图像检索;多模态检索;多模态融合 ACM 引用格式: Xuemeng Song, Haoqiang Lin, Haokun Wen, Bohan Hou, Mingzhu Xu, and Liqiang Nie. 2024. Composed Image Retrieval: A Comprehensive Survey.ACM Transactions on Information Systems 1, 1 (2024年3月)45页。https://doi.org/XXXXXXX.XXXXXXX 1 引言 图像检索自20世纪70年代以来一直是计算机视觉和数据库管理的一项基本任务 [36], 作为各种应用(如人脸识别)的基石。47], 时尚检索 [182], 和行人重识别 [92]. 传统图像检索系统主要依赖于单模态查询,使用文本或 arXiv:2502.18495v2 [cs.MM] 4 Mar 2025这项工作已提交给ACM以供可能发表。在未经通知的情况下,版权可能被转让,此后此版本可能不再可访问。作者联系信息:宋雪萌,山东大学, 青岛市, 中国, sxmustc@gmail.com;Haoqiang Lin, 山东大学, 青岛市, 中国, zichaohq@gmail.com;温浩坤, 哈尔滨工业大学(深圳), 深圳, 中国和香港城市大学, 香港, 中国, whenhaokun@gmail.com;Bohan Hou, 山东大学, 青岛市, 中国, bohanhou@foxmail.com;徐明珠, 山东大学, 济南, 中国, xumingzhu@sdu.edu.cn;李强 Nie, 哈尔滨工业大学(深圳),中国深圳,nieliqiang@gmail.com. 用于传达用户搜索意图的图片 [33,120,121,125]. 然而,用户常常难以通过单一的文本查询清晰表达其搜索意图,或找到完美地准确代表该意图的图片。为解决这些局限性并提供更大的灵活性,提出了组合图像检索(CIR)[154]于2019年出现,该平台允许用户通过参考图像结合指定所需修改的文字描述来表达他们的搜索意图。通过使用更细致的搜索查询,CIR为增强电子商务等领域的搜索体验提供了巨大潜力[43] 和互联网搜索引擎 [75,118,156,167]. CIR的概念,允许用户利用多模态查询来表达其检索意图,可以轻松适应各种现实世界的检索场景。例如,参考图像可以替换为参考视频以实现组合视频检索,或单轮CIR可以演变为基于对话的多轮图像检索。自2019年引入以来,由于其在各个领域的潜在价值,CIR已引起越来越多的研究关注。如图所示1, 关于CIR的出版物数量正在迅速增加。为了总结这一快速发展领域过去和目前的成就,我们呈现了一份截止到2024年11月的全面工作综述。现有研究主要关注解决以下关键挑战。1)多模态查询融合。在CIR中,修改文本和参考图像在传达用户搜索意图方面发挥着互补作用。修改文本通常指定参考图像某些属性的更改。例如,在给定的修改要求“我希望连衣裙是黑色且更具专业性”的情况下,仅应更改参考图像中连衣裙的颜色和风格,而参考图像的其他属性应保持不变。由于这种特性,如何实现有效的多模态融合以准确理解多模态查询,构成了第一个挑战。2)目标图像匹配。多模态查询与目标图像之间的语义差距由于其异构表示而构成重大挑战。此外,修改文本的简短性可能导致歧义。例如,文本“I want to change the dress to longer sleeves and yellow in color”可能有多种解释:袖子可能从无袖变为短袖或长袖,颜色可以从浅黄到深黄不等。这种歧义表明可能有多个目标图像可以满足给定的查询。因此,弥合这种语义差距并管理一对多的查询到目标匹配关系对于准确的查询-目标匹配至关重要。3)训练数据规模. Training CIR models typically requires triplets in the稿件已提交至ACM 以<参考图像,修改文本,目标图像>的形式。对于每个三元组,参考-目标图像对通常采用启发式策略生成,而修改文本则通常由人工标注。创建此类训练样本既昂贵又费时,这显著限制了基准数据集的规模。因此,解决训练数据不足的问题以提高模型的泛化能力仍然是一个重大挑战。 现有工作在该领域可分为两大主要类别:基于监督学习和基于零样本学习的方法。这些方法之间的关键区别在于标记训练三元组的可用性。监督方法依赖于数据集的标记三元组来训练模型,而零样本方法利用大规模、易于访问的数据(例如图像-文本对)进行预训练,而无需标记三元组进行优化。为促进更深入的分析,我们为每个类别建立了一种细粒度的分类法。对于监督式跨模态图像检索(CIR)方法,我们根据通用框架的四个关键组成部分:特征提取、图像-文本融合、目标匹配和数据增强,总结现有方法。对于零样本组合图像检索(ZS-CIR)方法,我们将方法分为三类:基于文本反转、基于伪三元组和无需训练。如前所述,使用组合式多模态查询的概念可适应各种场景。除了CIR的主要任务外,还有一些涉及组合查询的相关任务,例如参考图像加属性操控、草图加修改文本以及视频加修改文本。由于这些任务与CIR密切相关,我们收录了它们的最新进展,以提供对该主题的全面综述。根据多模态查询的类型,我们将这些相关任务分为五组:基于属性、基于草图、基于遥感、基于对话和基于视频。 总之,我们的主要贡献如下: • 据我们所知,本文是对CIR首次进行的全面综述,涵盖了120多项原始研究。其旨在为这一快速发展领域的研究提供及时且深入的概述,以指导未来的研究方向。• 我们系统地整理了该领域的研究成果、技术方法、基准测试和实验,以加深对该领域的理解。此外,我们还提出了一个详尽的方法分类体系,以满足读者的多样化需求。 • CIR仍然是研究的一个新兴领域。基于所调查的文献,我们确定了几个关键研究挑战,并提出了潜在的未来方向,为该领域的研究人员提供了前瞻性指导。 本文的其余部分按照图示组织。2 2 和 3 章分别回顾了监督式 CIR 模型和零样本 CIR 模型。第 4 章介绍了与 CIR 相关的任务。第 5 章描述了当前可用的数据集、使用的评估指标以及现有方法产生的实验结果。最后,我们在第 6 章讨论了可能的未来研究方向,并在第 7 章总结全文。 2 监督组合图像检索 在这一部分,我们首先为监督式CIR任务提供问题陈述,然后介绍现有方法。通常,如图所示3,现有模型包含四个关键组件:特征提取、图文融合、目标匹配和数据增强。前三个是CIR的核心组件,最后一个为可选组件,旨在提升模型性能。现有的监督式CIR方法总结于表1. 2.1 问题陈述。 𝑓(𝐼𝑟,𝑇𝑚)→ℎ(𝐼𝑡),(1)给定参考图像及其修改文本,CIR旨在从一组库图像中检索目标图像。在监督学习设置中,现有方法依赖于三元组形式训练样本。即, <reference image, D {}修改文本,目标图像>. Let = (푁퐼 ,푇 , 퐼퐼푟 푝 푓)푖表示一组这样的三元组,其中푖=1푟is the reference image,푇푚修改文本퐼푡表示目标图像,和푁是三胞胎的总数。然后,基于训练数据Ddataset , 现有方法旨在学习一个有效的多模态融合函数,该函数能够结合多模态查询 (퐼 ,푇푟 푸) 和一个视觉特征嵌入函数,以确保组合的查询和相应的目标图像在嵌入空间中是接近的。这可以形式化为如下:where푓··:( ) 代表将多模态查询映射到潜在空间的 多模态融合函数。ℎ( )表示目标图像的特征嵌入函数。 稿件已提交至ACM 关于合成图像检索的全面调查 5 表1. 主要监督组合图像检索方法的总结。 2.2 特征提取 在CIR任务中,特征提取在从输入查询和目标图像中提取有意义嵌入方面扮演着至关重要的角色。由于特征提取已在自然语言处理和计算机视觉等领域得到广泛研究,因此大多数现有的CIR方法利用成熟的文本和视觉特征提取骨干来对编码输入查询和目标图像。我们将这些编码骨干分为两大主要类型:传统编码器和基于视觉-语言预训练(VLP)模型的编码器。 在进行文本特征提取时,CIR任务中常用的编码器包括基于RNN的编码器。2.2.1 传统编码器。 编码器和基于 Transformer 的编码器。在 CIR 研究中使用的代表性基于 RNN 的编码器是双向门控循环单元(BiGRUs)[30]和长短期记忆网络(LSTMs),已被证明在捕获文本序列中的长期依赖关系方面非常有效。具体而言,现有的CIR研究[37,89,95–97,143,160, 192,193,205] 采用 BiGRUs 作为文本编码器以进行双向序列处理,通过捕捉来自过去和未来标记的上下文来丰富特征嵌入。与此同时,多项研究 [40,69,171,175,179,194–198] 利用LSTMs,该技术将门控机制引入标准RNN结构,有效管理长距离依赖关系以进行修改文本特征提取。随着Transformer的兴起[148], 一个越来越多的CIR研究[5,52,61,68,75,136,146,174] 采用基于 transformer 的编码器,例如 BERT [39]及其变体(e.g., RoBERTa [106] 和 DistilBERT [132]),作为它们的文本编码器。这些编码器利用自注意力机制来捕获整个文本序列的全局上下文,实现并行处理并生成更深层次的上下文嵌入。总体而言,与基于RNN的编码器相比,基于transformer的编码器在CIR任务中对文本嵌入表现出更优越的能力,尤其是在基于大规模语料库进行预训练时。 同样地,用于CIR研究中的传统图像编码器可以分为基于CNN的编码器和基于transformer的编码器。基于CNN的编码器最初因其能够通过卷积操作捕捉空间层次结构而流行,从而保存关键的空间信息并提供稳健的层次特征嵌入。许多CIR方法[24,37,69,107,143,154,164,175,197,200,203] 使用预训练的CNN编码器提取图像特征,例如ResNet [86], GoogleNet [141], and MobileNet [66], 在大规模数据集(如ImageNet)上预训练,从而产生可推广的特征嵌入。38]. 与基于CNN的编码器不同,后者直接将整个图像输入编码器,基于Transformer的编码器通过将图