行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

基于内容的图像搜索与检索

2018-01-11UC Berkeley有***

AI智能总结

DeepSeek: 基于内容的图像搜索与检索

引言

DeepSeek 是一种基于自然语言处理的端到端图像搜索和检索方法，允许用户通过文本描述搜索图像，系统根据语义和上下文相关性检索图像。该方法旨在克服现有图像搜索方案的局限性，如亚马逊图像搜索需要基于图像的查询，而谷歌图像搜索依赖误导性的元数据。

相关工作

基于内容的图像检索领域已有大量工作，包括 SIFT 特征和视觉词语袋（BoW）模型。BoW 模型通过量化图像中的局部特征构建紧凑的图像表示，并适应经典倒排文件索引结构。传统视觉特征分为局部和全局特征，但存在启发式设计、用户需输入相似图像等问题。其他解决方案如谷歌图像搜索虽使用元数据，但具有误导性。

方法

DeepSeek 提出将文本和图像在相同空间中进行语义嵌入，以提高基于文本的语义图像检索效率。主要方法包括：

3.1 基于标题的检索

标题生成模型：使用 ResNet-101 提取图像特征，并微调生成标题，将图像转换为语义丰富的文本表示。
SkipThoughts 模型：将生成的标题转换为向量嵌入，使图像及其相关标题在嵌入空间中彼此靠近。
检索流程：用户查询通过 SkipThoughts 模型转换为向量，与图像相关标题向量通过 L2 距离进行检索。

3.2 嵌入空间检索

特征提取：使用预训练的 ResNet-101 提取图像特征。
联合嵌入学习：通过两个并行网络学习图像和文本的联合嵌入空间，使图像和文本向量在嵌入空间中彼此靠近。
检索流程：用户查询和图像标题向量通过 L2 距离进行检索。

实验与数据集

4.1 标题生成

数据集：MS COCO 数据集，包含 328k 张图像，每张图像有 5 个标题。
设置与训练：使用 ResNet-101 和 LSTM 架构，训练标题生成模型，目标函数为 CIDEr 分数。

4.2 SkipThought Vectors

模型：使用官方提供的 SkipThoughts 模型，生成句子表示。
训练：使用书籍文本训练编码器-解码器模型，重建编码文本段落的周边句子。

4.3 检索嵌入空间

训练：使用 MS COCO 数据集训练嵌入空间检索模型，目标函数为 L2 距离损失。

评估

5.1 定量评估

标题生成：使用 BLEU、Meteor、ROUGE-L 和 CIDEr 指标评估标题生成模型，与 SOTA 模型对比。
图像检索：使用 p@1 和 p@5 指标评估图像检索性能，基于标题的检索优于基于嵌入的检索。

5.2 定性评估

结果：两种方法在定性上均能取得良好结果，捕捉到场景中物体的语义关系和正确语义。

结论与未来工作

结论：DeepSeek 通过文本查询实现高效的图像检索，两种方法均能取得良好性能。
未来工作：探索基于三元组的损失函数学习嵌入空间，整合知识图谱等概念，进行 GPU 优化。

基于内容的图像搜索与检索

点击免费查看完整报告

你可能感兴趣

hot

DeepSeek：基于内容的图像搜索与检索

信息技术

-2025-03-01

hot

百度高级认证-基于SIVA框架搜索内容营销的主导逻辑研究

百度2021-11-23

hot

组合图像检索的全面综述

山东大学&哈尔滨工业大学2025-03-05

hot

6-2 支持用户反馈的对话式图像检索

信息技术

DataFunSummit2022：数字人技术峰会2022-08-30

hot

基于图神经网络的搜索推荐算法与实践

信息技术

DataFunSummit2023：数据科学在线峰会2023-07-13