基于深度学习的图像理解技术研究毕业论文
2020-04-12 16:25:32
摘 要
随着人工智能兴起,深度学习也受到了很大的重视,同时深度学习也在各个学科领域发挥自己的长处。在图像理解这一块,深度学习起到了重要的作用图像理解主要是对所给图片中的场景进行叙述和判断。本文提出利用CNN RNN的模型结构能够很好地完成对图像的内容进行描述。
本文的研究内容是利用深度学习里的神经网络来实现图像理解技术。对图像特征的提取可以利用VGG16的模型,然后经过非线性变换输入到RNN中。然后在利用RNN中特殊的LSTM结构进行语言模型的输出和词向量的生成。利用Python进行神经网络的编写,下载Flickr8k的数据集用以神经网络的训练。LSTM的展开网络结构能很好地利用上下文的关联生成所需要的图像描述内容,然后将所生成的内容进行BLEU的评估,并且选择谷歌的GoogleNIC模型和Mao et al.模型来进行BLEU评分的对比。我对自己的模型进行的一些简要的分析,指出该模型现在的局限性,希望能有更好地改进。
关键词:深度学习;图像理解;神经网络。
Abstract
With the rise of artificial intelligence, deep learning has also received a great deal of attention, and deep learning has also exerted its own strengths in various disciplines. In the image comprehension section, deep learning plays an important role. Image comprehension mainly describes and judges the scenes in a given picture. This paper proposes that the model structure of CNN RNN can describe the content of the image well.
The research content of this paper is to use the neural network in deep learning to first image understanding technology. The extraction of image features can use the VGG16 model and then input into the RNN through nonlinear transformation. Then use the special LSTM structure in the RNN to output the language model and generate the word vector. Using Python for neural network writing, download Flickr8k data set for neural network training. The expanded network structure of LSTM can make good use of the contextual context to generate the required image description content, and then evaluate the generated content for BLEU, and select the Google's Google NIC model and Mao et al. model to compare the BLEU scores. . I briefly analyzed some of my own models and pointed out that the model is now linear and hopes to improve it.
Key words: deep learning; image understanding; neural network.
目录
第一章 绪论 1
1.1课题研究的背景及意义 1
1.2国内外研究现状 2
1.3论文的主要安排及内容 2
第二章 神经网络理论与图像理解技术 4
2.1卷积神经网络 4
2.1.1卷积神经网络结构 4
2.2.2卷积层 4
2.2.4汇合层 5
2.2.5激活函数 6
2.2.6全连接层 7
2.2.7目标函数 7
2.2.8卷积神经网络的模型 7
2.2循环神经网络 8
2.2.1循环神经网络结构 8
2.3图像理解 10
2.3.1图像理解介绍 10
2.3.2图像理解的层次结构 11
2.3.3图像理解技术 11
2.4本章小结 12
第三章基于深度学习的图像理解实现 13
3.1图像理解的实现 13
3.2模型的构建 15
3.3CNN RNN具体实现图像理解 15
3.3.1初步构思 15
3.3.2LSTM的句子产生 19
3.3.3神经网络训练 20
3.3.4推测 21
3.4重要操作 22
3.4.1词向量生成 22
3.4.2BLEU评估 23
3.5本章小结 24
第四章仿真结果与分析 25
4.1环境配置 25
4.2RNN网络训练 25
4.3结果分析 27
4.3.1图像语言描述分析 27
4.3.2BLEU评估结果 28
4.3.3局限性 29
4.4本章小结 29
第五章结论与展望 30
5.1结论 30
5.2展望 30
参考文献 32
致谢 34
第一章 绪论
1.1课题研究的背景及意义
随着大数据的到来,深度学习也成了这一领域的焦点,它作为一个机器学习中方法的一种,在对图像理解,语音识别,图像分类等等都有很大的长处。现在我们身处一个信息爆炸的世界中,每时每刻都有很多信息产生,在计算机技术中,这些信息可以转换为一个一个的数据流[1]。半导体发展迅速,对于这些信息的存储已不再是问题。如今,我们要想的是对这些信息进行怎样的处理,找到其中有用的信息,有用的数据,帮助我们人类来将世界变得更加美好[2]。现在,深度学习这一方法的出现,无异于敲开了使用这些数据的大门。
图像理解可能听起来感觉很无用,有人会认为我们人也能理解图像,何必用机器来代替[3]。但是现在全世界每秒产生的图片信息数不胜数,能有机器代替我们去识别这些图像所携带的信息则会令我们的生产生活更有效率。因为图像理解就是计算机所建构的模型能够提取图像中的某些特征,经过机器的翻译生成自然语言,让我们能对图像所显示的场景做出正确的判断[4]。深度学习作为人工智能中的一大技术,可以在图像理解中发挥极大的用处。
深度学习的优势有很多,主要在一下三大方面:
1.对于大数据,深度学习的模型就是以统计和计算为主,这方便处理大数据。目前为止,这是人类能找到的最好的方法,因为它集中体现了机器学习算法的三个大趋势:在数学方法上利用较复杂的模型去减少偏差,在优化方案上使用可扩展的梯度下降方法,利用大数据来提高统计估计的准确度。
2.深度学习并不是一个黑箱系统。它具有概率的思想,拥有一套丰富的基于连接的建模语言 [5]。这个系统,能够帮助我们透析数据之间的联系和结构。
3.深度学习有一个“端到端”的思想,这是它区别于其他机器学习算法最为重要的特征,整个学习过程并不进行认为的子问题划分,而是全部交由深度学习的模型来完成,人将原始的数据给到模型的输入,而模型根据一层一层的学习来得到期望输出的映射[6]。它能更好地抓住图像的特征,将它们联系在一起,得到自然语言的输出。基于深度学习的图像理解就是利用这样的优点,使计算机能像人类一样理解图像,更好的理解世界,洞察用户。
1.2国内外研究现状
深度学习并不是最近几年才提出来的,上世纪的四十年代就已经产生,在八、九十年代流行。人们想让机器如人一样思考,解决各种问题。1986年Rumelhart、 Hinton和Williams在《自然》发表了著名的反向传播算法用于训练神经网络,直到现在都还有影响力[7]。但是,后来神经网络却被大多数学者抛弃。
直到2006年,Geoffrey Hinton提出了深度学习,深度学习在人工智能方面引起瞩目,取得了非凡的成就。这一切都归功于大数据的出现和计算机硬件的飞速发展。大数据的巨量的图像训练集缓解了训练过拟合的问题,硬件的发展也令CPU、GPU集成上千个核,使得计算能力大大加强。
深度学习在2012年迎来非常重要的时刻,Hinton的小组夺得了桂冠,凭借卷积神经网络Alex-net赢得冠军,这项比赛被称为计算机视觉界“世界杯”。从此,卷积神经网络开始在计算机视觉上没有敌手。尔后每一年ImageNet竞赛都是深度学习神经网络折得桂冠。直到 2015 年,在对激活函数进行了调整优化后,使用ImageNet数据集的卷积神经网络降低了错误率 (4.94%)第一次超过了人类预测错误率(5.1%)[8]。
近年来,关于神经网络的发展是极为快速的,相关领域的人员在不断增加,这方面的技术越来越先进。卷积神经网络的深度和复杂度在不断增加,从最初的 5 层、16 层,到诸如 MSRA提出的 152 层 Risedual Net甚至上千层网络已被广大研究者和工程实践人员司空见惯[9]。而循环神经网络则是滴对自然语言的处理领域,如情感分析、图像理解都取得令人赞叹的成绩。可以说,深度学习不仅在图像理解上有重要地位,在整个关于计算视觉,自然语言处理的方向上都发挥着它重要的作用。
1.3论文的主要安排及内容
本次研究是基于深度学习的图像理解技术研究。主要是利用CNN卷积神经网络对图像特征进行提取,然后输入到RNN循环神经网络的隐层状态中来生成自然语言描述。通过和人类手工标记的结果对比,利用BLEU或NIST等对结果进行评估。在Matlab或者python中完成仿真并分析结果。
按照设计的内容来分为以下几个步骤:
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: