登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 数学基地 > 正文

基于深度学习的多模态图像检索技术研究毕业论文

 2021-11-02 20:54:45  

摘 要

随着互联网技术的发展,对信息检索的要求日益严格,传统的图像检索方法已经无法适应用户日益增长的需要。如何从多模态图像中学习出有效的统一空间是当前图像信息检索的研究重点。

本文研究了一种基于卷积神经网络的图像提取且结合矩阵三因子分解哈希编码检索的跨模态图像检索方法。首先,从预先训练的模型中进行视觉特征的提取,其次对参数进行微调,从而使预训练模型更好地适应目标数据集。然后采用矩阵三因子分解哈希方法,利用有效的目标函数来联合学习具有不同长度设置的模态特定的哈希码,同时学习两个语义的相关矩阵,来关联两个模态之间的语义一致性并确保异构数据的可比性,实现在图像-文本空间的跨模态检索。

本文的创新点在于设计了基于和编码相结合的多模态图像检索技术,且进行了一系列的定量对比实验验证了该方法的高效准确。首先,本文采用了三种常用的多模态数据集:和数据集,然后分别在每个数据集上,将本文提出的方法和三种常见的子空间学习方法:典范相关分析、三视图和语义匹配进行比较。最后,通过计算所有查询的平均值来获得得分,分值越大,则模型的检索性能越好。实验证明,本文提出的和编码相结合的方法获得了更高的得分,该方法可以在更高的抽象级别上获得更好的图像语义表示, 且在不同的哈希长度设置下大多都会提高检索性能,适用于各种各样的样本特征,明显优于大多数最新技术。

关键词:跨模态图像检索;卷积神经网络;编码

Abstract

With the development of Internet technology, the requirements for information retrieval are becoming increasingly strict, and traditional image retrieval methods have been unable to meet the increasing needs of users. How to learn an effective unified space from multi-modal images is the current research focus of image information retrieval.

This paper studies a cross-modal image retrieval method based on convolutional neural network image extraction combined with matrix three-factor decomposition hash code retrieval. First, extract the visual features from the pre-trained CNN model, and then fine-tune the parameters, so that the pre-trained model can better adapt to the target data set. Then use the matrix three factor decomposition hash method, and the effective target function is used to jointly learn the modal-specific hash codes with different length settings, and simultaneously learn two semantic correlation matricesto. To correlate the semantic consistency between two modalities and ensure the comparability of heterogeneous data, enabling cross-modal retrieval in image-text space.

The innovation of this paper lies in the design of a multimodal image retrieval technology based on the combination of CNN and MTFH coding, and a series of quantitative comparison experiments are carried out to verify the efficiency and accuracy of the method. First, this article uses three commonly used multimodal data sets: Wiki, Pascal Sentence and Pascal VOC 2007 data sets, and then on each data set, and compare the proposed method with three common subspace Learning method: canonical correlation analysis, three-view CCA and semantic matching. Finally, the mAP changes are calculated step by step by calculating the APs of all queries, the larger the score, the better the retrieval performance of the model. Experiments show that the combination of CNN and MTFH coding proposed in this paper achieves a higher mAP fullness. This method can obtain a better image semantic representation at a higher level of abstraction, and under different hash length settings, most of them will improve retrieval performance, applying to a variety of sample features, and obviously better than most of latest technologies.

Key Words:cross-modal image retrieval; convolutional neural network; matrix three-factor decomposition hash code

目录

第1章 引言 1

1.1 研究背景与意义 1

1.2 国内外研究现状 1

1.3 主要研究内容与结构 2

第2章 预备知识 4

2.1 跨模态检索 4

2.2 哈希方法 4

2.3 深度学习与卷积神经网络 5

2.3.1 深度学习 5

2.3.2 卷积神经网络 8

2.3.3 卷积神经网络训练 10

2.4 本章小结 11

第3章 图像-文本跨模态检索 12

3.1 基于的多模态特征的提取 12

3.2 矩阵三因子分解哈希()框架 15

3.2.1 符号和问题表示 15

3.2.2 优化阶段 17

3.2.3 改造方案 20

3.2.4 哈希函数学习 21

第4章 跨模态检索实验 22

4.1 数据集和评估指标 22

4.2 Wiki上的跨模态检索 23

4.3上的跨模态检索 26

4.4 上的跨模态检索 27

4.5 实验测试 28

第5章 总结与展望 30

5.1 总结 30

5.2 展望 30

参考文献 31

致谢 33

第1章 引言

1.1 研究背景与意义

随着互联网和多媒体技术的发展,上以图像为代表的多媒体数据得到了飞速增长,图像的可用性也得到了巨大的提升。在维基百科、、以及新浪微博等社交网站上,用户能够轻松分享并获取各种图像数据。图像、文本等相关数据呈现出的爆炸式增长,这在提高数据价值的同时,也给信息检索带来了巨大的挑战。当前的主流搜索引擎,在搜索图片时还是以图片本身的标签搜索为主,而这种单一模态的搜索方式已经无法满足这个信息多样化、需求个性化、使用便捷化时代的应用需要。因此,如何快速且准确的从庞大的数据库中检索到有效的图像信息,成为当前图像信息检索的一个研究重点。

为了满足用户对图像数据日益增长的需要,传统的图像检索方法已经无法适应于图像数据,图像检索具有多模态性,其主要表现在两个方面。图像数据的内容呈现多模态性,例如上的图像数据除了包括视觉内容,还会包括用户上传的标签与评论等文本内容。另外,用户的检索方式也呈多模态性,用户会根据不同的需要,选择输入视觉内容或文本内容来检索相关的图像或者文本。

另一方面,深度学习作为当前机器学习领域发展最为迅速的课题之一,自2006年提出深度学习的概念后,便受到广大学者们的青睐而不断发展。深度学习通过人工神经网络,构建多层神经元以及海量的训练数据,不断的提取有用的特征,层层抽象进而挖掘数据的本质信息,从而进行识别事物并进行有效的分类。基于深度学习的相关技术在多媒体内容理解上取得了巨大的成功,如图像分类、物体检测等。深度学习具有分布式特征表达、自动特征提以及良好的泛化能力等优势,相较于传统的机器学习,深度学习在多模态信息检索中具有更大的应用优势。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图