目标检测RCNN方法神经网络的可视化毕业论文
2021-03-22 22:26:37
摘 要
最近大型卷积神经网络模型在ImageNet标准上的表现给所有人留下了深刻的印象。然而,对于为什么卷积神经网络模型的表现如此良好,人们对它知之甚少。本文基于Direct3D 12开发平台,使用Caffe等三方件作为基础,设计一个神经网络的可视化框架,通过实现的框架对已有的网络模型进行显示,通过观察可视化结果,与视觉系统做对比,总结网络的工作方式。
框架基于Direct3D 12在Windows平台上进行开发,用于将神经网络以三维模型的方式展现出来。为了增加程序的可交互性,还添加了GUI控件,可以对显示的模型进行旋转和缩放。
程序对LeNet和VGGNet两个代表性网络进行显示。可视化结果表明卷积神经网络成功模拟了灵长类动物的视觉系统。其中第一层卷积的卷积核与图像处理中的方向滤波器具有类似的功能,对应着初级视觉皮层的简单细胞。后续卷积核是对边缘特征的组合,形成更高级的特征空间,对应着初级视觉皮层的复杂细胞。
关键词:卷积神经网络;卷积核;可视化
Abstract
Large Convolutional Network models have recently demonstrated impressive classification performance on the ImageNet benchmark. However there is no clear understanding of why they perform so well. Based on the Direct3D 12, this paper designs a neural network visualization framework based on Caffe and other 3rd librarys. Visualizing the existing network model by the framework and observing the visualization results, then drawing a conclusion on how to work of the network.
The framework is based on Direct3D 12 on the Windows platform for the visualization of neural networks in three-dimensional. In order to increase the programmability of the application, also added GUI controls, you can display the model to rotate and zoom.
The program displays two representative networks, named LeNet and VGGNet. The visualization results show that the convolution neural network successfully simulates the visual system of primates. Wherein the convolution kernel of the first layer convolution has a similar function to the direction filter in the image processing, corresponding to the simple cells of the primary visual cortex. Subsequent convolution kernel are a combination of edge features that form a more advanced feature space, corresponding to the complex cells of the primary visual cortex.
Key Words:convolutional neural network;convolution kernel;visualization
目 录
摘 要 I
Abstract II
第1章 绪论 1
1.1 深度学习的研究进展 1
1.2 目的及意义 1
1.3 论文的内容及章节安排 2
第2章 神经网络与深度学习 3
2.1 神经网络的发展概况 3
2.2 人工神经元模型 3
2.3 卷积神经网络 4
2.4 卷积神经网络结构 5
2.4.1 LeNet 5
2.4.2 VGGNet 6
2.5 Caffe框架 8
2.6 目标检测与RCNN方法 9
2.7 本章小结 10
第3章 计算机图形学 11
3.1 三维仿射变换 11
3.2 Direct3D 12 基础 13
3.2.1 渲染管线与着色器 13
3.2.2 资源绑定 14
3.2.3 交换链与页面切换 15
3.3 本章小结 15
第4章 神经网络可视化框架 16
4.1 建模与绘制 16
4.1.1 D3D应用的基本流程 16
4.1.2 可视化框架结构 17
4.1.3 顶点缓存与索引缓存 18
4.1.4 初始化与渲染流程 20
4.2 数据组织 22
4.3 人机交互 23
4.4 测试结果 25
4.5 本章小结 25
第5章 实验结果 26
5.1 初级边缘特征 26
5.2 高层抽象特征 28
第6章 总结与展望 30
参考文献 32
附 录 33
致 谢 36
第1章 绪论
事实上,深度学习早已有之。最近深度学习再次成为焦点的原因有两点,一是互联网的蓬勃发展导致数据量以指数形式膨胀,二是近代CPU计算能力的显著提升,弥补了神经网络模型计算量大的缺点。这使得之前简单模型无法解决的问题借用深度学习理论之后都能够解决。模型复杂度越高,说明模型越接近复杂的现实世界,因此在很多任务(例如计算机视觉系统识别)中,深度学习模型往往优于其他模型。但是复杂的模型具有训练时间长、训练数据量大的困难。为了减少神经网络的训练时长,可以加入先验知识来达到“预训练”的效果,这种先验知识具体表现为神经网络的各个神经元的可训练自由参数,通过使用有意义的数值组合初始化自由参数,来替代传统训练中使用高斯分布随机值进行初始化的方案。但是什么样的数值组合是有意义的成为亟待解决的难题。
1.1 深度学习的研究进展
David Hubel和Torsten Wiesel基于大量的实验发现视觉系统的信息处理方式,即可视皮层是分级的[1],并因此荣获了1981年的诺贝尔医学奖。这个生理学的发现,促成了计算机人工智能在40年后的突破性进展。2006年,《科学》上刊登了一篇基于神经网络深度学习理念的突破性文章[2],作者正是现今机器学习领域的泰斗Geoffrey Hinton。2010年,深度学习受到美国国防部先进研究项目局的重视,多个大学及研究机构获得资助,开展深度学习的相关研究。2011年,微软语音识别通过使用深度学习技术成功降低语音识别错误率20%以上,取得语音识别领域近十年以来的突破性进展。2012年,微软亚洲研究院在发布会上直播演示了中英即时口译系统,发音极为顺畅,并且错误率仅为7%。2013年,百度宣布成立深度学习研究院,同时开启了百度大脑计划。2016年3月,谷歌人工智能AlphaGo[3]以4:1的总分战胜世界围棋冠军李世石。让深度学习这一术语第一次近距离的走入公众视线。
1.2 目的及意义