研究背景与挑战
时尚领域具有巨大的经济价值,而精确的图像检索是满足用户搜索意图的关键挑战。传统文本查询模式存在局限性,用户更倾向于使用图像或结合文本进行搜索。基于对话的时尚搜索允许用户通过参考图像和修改反馈来搜索项目,但如何有效表达用户意图是一个难题。
结构化反馈方法
现有结构化反馈方法主要分为基于融合和基于替换两类:
- 基于融合:通过直接学习目标项目的潜在表示,熔断查询图像的视觉特征和所需属性的语义特征,实现属性操作。
- 基于替换:通过替换带有期望属性的不希望属性特征,实现属性操作。
研究动机指出,现有方法忽略了生成对抗网络(GANs)在增强目标项视觉理解方面的潜力。因此,提出了AMGAN方法,通过生成属性操作的原型图像来提高基于内容的时尚搜索性能。AMGAN采用对抗性度量学习,包括基于对和基于三元组的方案,并在DARN和Shopping100K数据集上验证了其优越性。
非结构化反馈方法
非结构化反馈方法主要关注如何组合多模态查询以检索目标图像。相关工作包括全局组合和局部组合方法,但现有方法未考虑局部和全局组合的结合。
提出的CLVC-Net方法设计了细粒度局部组合(FLC)和细粒度全局组合(FGC)模块,并通过相互增强机制使两个模块相互交替分享知识。CLVC-Net在多个CTI-IR数据集上验证了其优越性,包括MIT States、Birds-to-Words、Fashion200k、鞋子、FashionIQ和CSS数据集。
数据集与实验结果
研究使用了多个CTI-IR数据集进行实验,包括MIT States、Birds-to-Words、Fashion200k、鞋子、FashionIQ和CSS数据集。实验结果表明,CLVC-Net在三个数据集上均超越所有基线方法,验证了其优越性。
研究结论与未来工作
研究设计了基于转换的细粒度多模态组合模块,并首次统一了全局和局部组合,在CTI-IR背景下实现了相互增强。未来工作包括使用OSCAR作为合成模块,以及使用基于CLIP的预训练技术。
案例研究
研究通过案例研究展示了模型在处理不同场景下的效果,包括FashionIQ和鞋子数据集的失败案例,以及如何通过CLVC-Net改进检索结果。