DeepSeek: 基于内容的图像搜索与检索
引言
DeepSeek 是一种基于自然语言处理的端到端图像搜索和检索方法,允许用户通过文本描述搜索图像,系统根据语义和上下文相关性检索图像。该方法旨在克服现有图像搜索方案的局限性,如亚马逊图像搜索需要基于图像的查询,而谷歌图像搜索依赖误导性的元数据。
相关工作
基于内容的图像检索领域已有大量工作,包括 SIFT 特征和视觉词语袋(BoW)模型。BoW 模型通过量化图像中的局部特征构建紧凑的图像表示,并适应经典倒排文件索引结构。传统视觉特征分为局部和全局特征,但存在启发式设计、用户需输入相似图像等问题。其他解决方案如谷歌图像搜索虽使用元数据,但具有误导性。
方法
DeepSeek 提出将文本和图像在相同空间中进行语义嵌入,以提高基于文本的语义图像检索效率。主要方法包括:
3.1 基于标题的检索
- 标题生成模型:使用 ResNet-101 提取图像特征,并微调生成标题,将图像转换为语义丰富的文本表示。
- SkipThoughts 模型:将生成的标题转换为向量嵌入,使图像及其相关标题在嵌入空间中彼此靠近。
- 检索流程:用户查询通过 SkipThoughts 模型转换为向量,与图像相关标题向量通过 L2 距离进行检索。
3.2 嵌入空间检索
- 特征提取:使用预训练的 ResNet-101 提取图像特征。
- 联合嵌入学习:通过两个并行网络学习图像和文本的联合嵌入空间,使图像和文本向量在嵌入空间中彼此靠近。
- 检索流程:用户查询和图像标题向量通过 L2 距离进行检索。
实验与数据集
4.1 标题生成
- 数据集:MS COCO 数据集,包含 328k 张图像,每张图像有 5 个标题。
- 设置与训练:使用 ResNet-101 和 LSTM 架构,训练标题生成模型,目标函数为 CIDEr 分数。
4.2 SkipThought Vectors
- 模型:使用官方提供的 SkipThoughts 模型,生成句子表示。
- 训练:使用书籍文本训练编码器-解码器模型,重建编码文本段落的周边句子。
4.3 检索嵌入空间
- 训练:使用 MS COCO 数据集训练嵌入空间检索模型,目标函数为 L2 距离损失。
评估
5.1 定量评估
- 标题生成:使用 BLEU、Meteor、ROUGE-L 和 CIDEr 指标评估标题生成模型,与 SOTA 模型对比。
- 图像检索:使用 p@1 和 p@5 指标评估图像检索性能,基于标题的检索优于基于嵌入的检索。
5.2 定性评估
- 结果:两种方法在定性上均能取得良好结果,捕捉到场景中物体的语义关系和正确语义。
结论与未来工作
- 结论:DeepSeek 通过文本查询实现高效的图像检索,两种方法均能取得良好性能。
- 未来工作:探索基于三元组的损失函数学习嵌入空间,整合知识图谱等概念,进行 GPU 优化。