您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:DeepSeek:基于内容的图像搜索与检索 - 发现报告

DeepSeek:基于内容的图像搜索与检索

信息技术2025-03-01--报***
AI智能总结
查看更多
DeepSeek:基于内容的图像搜索与检索

坦尼亚·皮普拉尼加州大学伯克利分校信息学院 tanyapiplani@berkeley.edu 大卫·巴曼信息学院,加州大学伯克利分校 dbamman@berkeley.edu 摘要 食品,生日等。由于受限于可准确处理的token数量,表达性受到严重限制。此外,这种搜索当然也受限于设备上的图像数量。一些其他解决方案,如谷歌的图片搜索,使用可能相当误导性的元数据。 今天,互联网的大部分内容由数字媒体组成,包括视频和图片。随着像素成为互联网上大多数交易使用的货币,以相对轻松的方式浏览这浩瀚的信息海洋变得越来越重要。YouTube每分钟上传400小时的视频,Instagram、Facebook等平台上浏览的图片数以百万计。受到深度学习领域最近进展的启发,以及它在诸如图像标题等问题的成功应用,Karpathy and Fei-Fei,2015(和)徐等,2015括号内, 为了克服所有这些问题,我们提出了一种端到端的方法,通过基于文本的查询和自然语言处理来实现图像搜索和检索。在下一节中,我们将描述我们将要使用的数据和方法。 机器翻译(巴哈纳乌等人,2014),词向量模型, 跳转想法模型 (Kiros等人,2015等,我们提出了DeepSeek,这是一个基于自然语言处理和深度学习的模型,允许用户输入他们想要搜索的图像的描述。作为回应,系统检索出所有与查询在语义和上下文中相关的图像。以下几节描述了两种方法。 2 相关工作 在基于内容的图像检索领域已做了大量工作。 ( )周等,2017特别地,两篇开创性的作品为大规模多媒体数据库中基于内容视觉检索的重大进步铺平了道路。第一篇作品是引入了不变局部视觉特征SIFT()。洛氏,2004). 第二项工作是引入了视觉单词包(BoW)模型( )Sivic and Zisserman,2003). 从信息检索中借鉴,BoW模型基于包含的局部特征的量化,对图像进行紧凑表示,并易于适应经典的倒排文件索引结构,以实现可扩展的图像检索。图像表示源于这样一个事实:基于内容视觉检索的内禀问题是图像比较。为了便于比较,将图像转换成某种特征空间。其动机是实现隐式对齐,以消除背景以及潜在的变换或变化的影响,同时保持内在视觉内容的可区分性。传统上,视觉特征是启发式设计的,可以分为局部特征和全局特征。 1 引言 图像搜索是一个极具挑战性的问题,目前也是研究的热点。像亚马逊、谷歌、苹果等所有主要玩家都提供了相应的解决方案。然而,这些解决方案都存在局限性。例如,亚马逊的图像搜索利用计算机视觉检索相似图像。虽然大多数情况下准确度较高,但最大的问题是用户需要输入基于图像的查询,而这在大多数情况下可能并不容易获得。苹果在其设备中提供了通过短语(如)搜索图像的选项。 我们的方法 除了那些手工制作的功能之外,近年来还见证了基于学习的功能的开发。这些系统的最大问题是查询表述是以输入图像为基础,该图像被转换成特征表示;基于这个表示,数据集中的图像被排序。这种方法从根本上是有缺陷的,因为它要求用户一开始就有一个相似的图像。也有一些方法被概述,它们将文本作为输入用于在网络上搜索图像,如Google。但这里的大部分重点实际上是在进行文本检索(谢等。,2014)并返回与检索文本相关的图像。这本质上是一种弱学习方法,其中问题是通过间接方式来解决的。 在本节中,我们描述了两种我们想要尝试的解决上述问题的方法。 3.1 基于标题的检索 在图像字幕生成领域已经进行了大量研究工作。图像字幕生成问题涉及生成一个短语来描述图像中的场景。一种最先进的卷积神经网络架构被用于提取图像特征并将输入转换为语义丰富的嵌入向量。该向量可用于训练不同的任务,如分类、检测,或作为其他任务的流水线的一部分。为了我们的目的,我们将用它来初始化语言模型。语言模型是一个基于长短期记忆架构,试图模拟P(S|h, x, S)S在哪里是“at time”这个词t t−1 t t−1 tt h,是LSTM在时间点t的隐藏状态t−1t−1x并且是时间点的LSTM单元格的输入tt在每一步,使用softmax输出词汇表中所有单词的概率。 因此,上述所有系统在提供基于文本的语义图像检索有效解决方案的努力上都存在不足。因此,我们提出了一种方法,将文本和图像在相同的空间中进行语义嵌入,以便我们可以更高效、更准确地根据文本查询检索图像。 在我们的实验中,我们使用了ResNet-101(他等。,2015)作为特征提取主干。我们用从MS-COCO物体检测(预训练的权重初始化了网络。林等,2014对任务进行初步处理,然后针对MS-COCO数据集上的标题生成任务进行了微调。一旦生成标题,我们使用了跳转思维(skip thought)方法。Kiros等人,2015模型将字幕转换为向量嵌入。一旦字幕被转换为向量,我们对用户提供的查询也进行同样的处理。然后通过最小化查询向量与图像相关联的字幕向量之间的L2距离来执行图像检索。 2. 与此图像相关的标题也使用skipthoughts模型投影到语义特征表示空间中。i1省略号表示内容缺失,无法进行翻译。请提供完整的英文文本。在哪里∈ {}是该图像之一N图像数据集。 (2)3. 然后对这两个特征应用一个预测,以创c第 k 个哪里是−与以下相关:caption related to theU(c k( ) = Γ()c)ii 3.2 嵌入空间检索 本模型由以下组件组成:- 1. 使用预先初始化的最先进卷积神经网络(ResNet-101)从图像帧中提取语义信息以构建代表图像内容的特征。我们称之为 建一个可以通过最小化这些向量的L2距离来学习的嵌入空间。iΓ图片是skipthoughts模型。 4 实验 4.1 标题生成 对于我们的第一种方法,我们首先训练一个标题生成模型。这里的想法是将图像转换为语义丰富的等价文本表示。生成的标题随后通过skipthoughts(稍后解释)转换为向量。因此,每张图像间接地被转换为其语义丰富的特征表示。 并且 (())(())∈.并且EuWc在何处,两者都E无效输入VxiR无效输入iik i 4.1.1 数据集 4. 目标函数定义为:- 我们在MS COCO数据集上训练了一个标题生成模型(林等,2014). 该数据集包含复杂日常场景 的图像,其中包含在自然环境中常见的物体。使用实例分割对物体进行标注,以帮助精确定位物体。数据集包含91种物体的照片,这些物体对于一个4岁的孩子来说很容易识别,总共有250万个标注实例分布在32800张图像中。每张图像由人类标注了5个标题。该数据集的2014版本有80,000张图像。 因此,我们最终得到一个空间,其中图像及其相关标题彼此靠近。这个空间可以用来从用户那里接收查询,并根据它们的L2距离检索图像。i 运行70,000次迭代以获得0.7的CIDEr分数。对于嵌入空间学习问题,设置与上述相似。第5个方程中定义的损失函数与上述相同。使用Adam优化器和128个向量的批次大小最小化损失。整个训练集包含80,000张图像,与MS COCO数据集用于标题生成的训练集相同。学习率被定义为1e-3,并在训练过程中指数衰减。训练允许运行直到收敛。我们1e 3也发现将梯度裁剪至范数为有用,并且可以 训练数据集为80k张图像,验证数据集为40k张图像,测试数据集为20k张图像。我们遵循相同的设置。在图像检索方面,我们使用与标题生成相同的测试集,即MS COCO数据集的20k张图像。对于基于标题的检索,除了训练标题生成模型本身之外,没有训练阶段。对于基于嵌入的检索模型,使用MS COCO数据集的80k张图像作为训练集。一旦提取了向量,我们定义它们之间的L2损失5根据方程式给出。 提前稳定训练。 4.1.2 安装与培训 4.2 跳过思维向量 对于标题生成模型,我们使用批处理大小为128,图像尺寸为224x224。训练在Nvidia Titan-X GPU上进行。我们使用具有动量的Adam优化器,并使用默认设置。β= 0.99β= 0.9999(并且). 学习率12参数设置为1e-3并按指数衰减。CNN的学习率设置为小一个数量级。LSTM的梯度被截断在10。训练允许进行直到收敛。在本报告发布时,我们能够 Skipthought向量是一种用于通用、分布式句子编码的无监督学习方法。利用书籍文本的连续性,首先训练一个编码器-解码器模型,尝试重构编码段周围的句子。具有语义和句法属性的句子因此被映射到相似的向量表示。接下来,引入了一种简单的词汇扩展方法来编码单词。 这些并非被视为培训内容,使我们能够将词汇量扩展至一百万词。最终结果是现成的编码器,可以生成高度通用的句子表示,这些表示在实践中的鲁棒性强且表现良好。对于SkipThought向量的生成,我们使用 5 评估专业嵌套空间。训练时间中使用的skip thought vectors取自由标题生成模型生成的标题。E(W(c)矢量k)∈R无效输入对于生成的cap-uictionk i图像在我们的训练集中也是i 与原始论文中的设置完全相同。我们也没有自己训练skipthought向量,目前使用的是作者在官方github页面提供的模型。关于此模型的训练信息可以在他们的论文中找到。()Kiros等人,2015) 5.1 定量分析无效输入 为了评估管道的不同部分,使用了不同的量化指标。使用包括BLEU、Meteor、Rouge-L和CIDEr指标在内的MS COCO服务器对标题生成进行了评估。我们根据MS COCO标题生成排行榜,将我们的模型与现有最先进系统进行了比较。嵌入到维度空间中。 4.3 用于检索的嵌入空间 学习图像和文本的联合嵌入空间是一个困难的任务,但之前在几项工作中也已经得到了解决。我们从(Frome 等人,2013), 并通过两个并行网络学习联合空间嵌入,这两个网络接收标题生成模型中CNN的输出。这些向量已经非常语义丰富,但随后还会嵌入E(V(x))由于向量的作用∈R无效输入无效输入在……维度(方面)无效输入i 为了相互评估我们的图像检索系统,我们提出了以下最相关的指标。我们计算在@处的精确度。k@k在三个不同级别上。精确度(p)是去... (s , s, s)s图6:跳转思维模型。给定一个元组连续的句子,其中第i个 ss句子来自一本书,该句子被编码并试图重建前一句和下一句。ii 1 模型 BLUE-1 METEOR ROUGE-L CIDEr-D我们的模型:0.928 0.320 0.693 1.092SOTA 0.953 0.375 0.734 1.270s句子在这个例子中,输入是句子三元组{我回到了家。我看到猫在……i+1这些步骤。这很奇怪。}未连接的箭头连接到编码器输出。颜色表示哪些组件共享参数。{EOS}句尾标记。 表1:与本文描述的标题生成模型相比的定量评估当前MS COCO排行榜上的技术水平现状。 如下定义:- 表2:对两种方法的定量评估 tp@k在真正阳性事件(() 被定义为 k 本报告中描述了图像检索的方法。每。 当系统检索到的图像之外的图像中,检索到正确的图像。并且,错误定位为:fp@k k 但首次检索到的图像可能并非最接近的图像,因此正确的图像可能会出现在前五张图像中,但可能不是第一个检索到的图像。请注意,上述检索操作是 积极事件定义为当系统被允许从图像中检索出没有任何一个是正确的时候。正确的图像标题对包括MS COCO中提供的标题。c 非GPU优化,这将大幅改善两种方法的计时。 数据集。因此,给定一个与之相关的标题,jx 5.2 定性分析 测试集中20k图像中的图像j 在第7图下面,我们比较了两个系统的输出,即嵌入空间检索和基于同一查询的标题生成检索的输出,以观察哪一个在质量方面表现更好。 MS COCO,我们执行基于标题的检索和嵌入空间检索,如下所述:c 低点。我们采用与以下相关的标题:j 5.3 结论与未来工作 图片,并嵌入