基于深度学习的空间变换网络模型研究文献综述
2020-04-23 19:56:32
随着信息化时代的到来,计算机、网络、通信等技术迅猛发展,人工智能的发展迎来了一个高峰期。早在20世纪40年代,世界上第一台计算机ENIAC问世以来,一大批科学家就开始讨论制造电子大脑的可能,伴随着生物学,计算机软硬件,大数据等学科的蓬勃发展,电子大脑-人工智能的实现条件越来越成熟。作为人工智能的一个分支,机器学习在很多时候几乎成了人工智能的代名词。机器学习就是通过算法,使得机器从大量历史数据中学习规律,从而对新的样本做智能识别或对未来预测。从1980年代末至今,机器学习的发展大致经历了两次浪潮:浅层学习和深度学习。2006年,加拿大教授Geoffrey Hinton和他的学生在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。深度学习又被称为无监督特征学习,可以理解为传统神经网络的延拓,它将特征和分类器结合到一个框架中,用数据去学习特征,在使用中减少了手工设计特征的巨大工作量,是一种可以自动学习特征的算法。深度学习主要运用于语音识别、图像识别、自然语言处理等领域。
图像是深度学习最早尝试的领域,图像识别技术广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉等。随着技术的发展,基于深度学习的目标识别方法出现,大大提高了图像识别的准确度和识别效率,但是图像信息的扭曲变形制约了图像识别的进一步发展。图像识别模型的构建主要基于深度学习的理念,以数据的原始形态作为算法输入,经过算法层层抽象将原始数据逐层抽象为自身任务所需的最终特征表示,最后以特征到任务目标的映射作为结束,从原始数据到最终任务目标,“一气呵成”并无夹杂任何人为操作。卷积神经网络定义了一个非常强大的分类模型,但仍然受限于缺乏在计算和参数效率上对输入数据空间不变性的能力。针对图像识别中出现的图形扭曲变形现象,可以将空间变换网络嵌入到深度学习网络(主要是卷积神经网络CNN)中,然后通过模型训练得到合适的模型参数,最后完成整个模型的调试,使之能够自动的进行图像矫正变换并得到对应的标签信息,避免了直接将数据“硬塞”给深度学习网络,能够有效提高训练的准确性和效率。
2016年,Google Deepmind的Max Jaderberg、Karen Simonyan、Andrew Zisserman和Koray Kavukcuoglu提出使用空间变换网络模型来处理图形扭曲变形的各种变换,旨在提升卷积神经网络在计算和参数方面的空间恒定性。普通的卷积神经网络能够显式地学习平移不变性,以及隐式地学习旋转不变性,但是根据监督模型,与让网络隐式地学习到某种能力相比较,为网络设计一个显示的处理模块,专门处理以上的各种变换,图像识别的准确性和效率会得到提升。空间变换网络模型的实现,完成了这样的任务。
{title}2. 研究的基本内容与方案
{title}本文是在卷积神经网络中,利用全连接层和放射变换对扭曲变形的目标进行矫正,设计并实现一个基于深度学习的空间变换网络模型。
本设计以Google的开源人工智能学习系统TensorFlow平台,使用python开发语言,搭建卷积神经网络,以该网络为框架,完成空间变换网络算法设计,并嵌入神经网络中。具体的算法设计分为两部分:第一部分为”localizationnet”,用于生成空间变换需要训练的参数θ;第二部分为”Grid generator”,完成参数化采样网格和微分图像采样。首先在TensorFlow上搭建基本神经网络,然后使用python开发空间变换网络算法,嵌入到神经网络中,最后使用数据集对神经网络进行训练。
具体工作流程为:基本神经网络搭建后,大致分为输入层,卷积层,光栅化层和多层感知器层,空间变换网络将嵌入到输入层后,在图像输入后,通过”localizationnet”提取输入图像的θ用于仿射变换,然后根据输入图像的高度和宽度以及仿射变换的参数θ,可以生成目标位置在输入图像中对应的位置,最后根据目标在输入图像中的对应位置利用双线性插值得到目标输出,传递给神经网络,进行后续的识别处理。空间变换网络算法计算较快,相对于原有网络模型的训练时间影响不大。在训练过程中,它能够学习到与任务相关的空间变换参数,因此能够进一步最小化网络的损失函数,同时减轻了神经网络的负担,对卷积神经网络达到优化的效果。
3. 参考文献
[1] Max Jaderberg, Karen Simonyan, AndrewZisserman, Koray Kavukcuoglu: Spatial transformer networks. 2015 Advances inNeural Information Processing Systems.
[2] Shuxuan Guo, Li Liu, Wei Wang,Songyang Lao, Liang Wang: An attention model based on spatial transformers forscene recognition.2016 23rd International Conference on PatternRecognition(ICPR).
[3] Feng Zhu,Hongsheng Li, Wanli Ouyang, Nenghai Yu, Xionggang Wang: Learning spatialregularization with image-level supervisions for multi-label imageclassification. arXiv preprint arXiv: 1702.05891v2, 2017.