基于卷积神经网络的手写数字识别研究开题报告
2020-03-20 23:46:54
1. 研究目的与意义(文献综述)
1.1 研究目的及意义
经过长期的发展,机器学习已经拓展至了深度学习领域。深度学习算法具有强大的分析和学习能力,是机器学习算法当中具有极高复杂程度的算法之一,在解决诸如视觉识别、语音识别和自然语言处理等很多问题方面都表现出色。在不同类型的神经网络当中,卷积神经网络是得到最深入研究的。早期由于缺乏训练数据和计算能力,要在不产生过拟合的情况下训练高性能卷积神经网络是很困难的。标记数据和近来gpu的发展,使得卷积神经网络研究涌现并取得一流结果,有效增强多层感知器的数据分析、图像处理等能力。
手写数字识别是图像识别领域中一个非常重要和活跃的分支,是利用机器或计算机自动辨认手写体阿拉伯数字的一种技术,是光学字符识别技术的一个分支。该技术可以应用到邮政编码、财务报表、税务系统数据统计、银行票据等手写数据自动识别录入中,它所涉及的问题是模式识别的其他领域都无法回避的;应用上,作为一种信息处理手段,字符识别有广阔的应用背景和巨大的市场需求。因此,对数字识别的研究具有理论和应用的双重意义。
2. 研究的基本内容与方案
本设计采用mnist手写字符数据集来探索tensorflow,并进行手写字符的识别 。数据集中的手写字符为28×28像素的手写数字灰度图像,其中55000个图像作为训练集,5000个图像作为验证集,测试集有10000个样本。每一个样本都有它对应的标注信息,即label。本设计将在训练集上训练模型,在验证集上检验效果并决定何时完成训练,最后在测试集评测模型的效果(可通过准确率进行评测)。
由于数字在0~9之间,共有10个类型,因此属于多分类任务,采用通常使用的softmax regression模型。该模型对一张图片进行预测时,会对每一种类别估算一个概率,比如预测是数字3的概率为80%,是数字5的概率为5%,最后取概率最大的那个数字作为模型的输出结果。工作原理是将可以判定为某类的特征相加,然后将这些特征转化为判定是这一类的概率。上述特征可以通过一些简单的方法得到,比如对所有像素求一个加权和,而权重是模型根据数据自动学习、训练出来的。
为了训练模型,还需要定义一个loss function来描述模型对问题的分类精度。loss越小,代表模型的分类结果与真实值得偏差越小,也就是说模型越精确。开始给模型初始化为零,训练的目的是不断将这个loss减小,直到达到一个全局最优或者局部最优解。对多分类问题,通常使用cross-entropy作为loss funciton。有了算法跟损失函数以后,只需要再定义一个优化算法即可开始训练。本设计采用常见的随机梯度下降sgd。定义好优化算法后,tensorflow就可以根据定义的整个计算图自动求导,并根据反向传播算法进行训练,在每一轮迭代时更新参数来减小loss。至此,便可完成训练,接下来可以对模型的准确率进行验证。
3. 研究计划与安排
第1-4周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
第5-6周:熟悉掌握基本理论,完成英文资料的翻译,熟悉所用软件及开发环境。
第7-10周:编程实现各算法,并进行仿真调试。
4. 参考文献(12篇以上)
[1] 黄文坚,唐源.Tensorflow实战[M].北京:电子工业出版社, 2017,46-54.
[2] 石磊.开源人工智能系统TensorFlow的教育应用[J].现代教育技术,2018,1:93-99.
[3] 张顺,龚怡宏,王进军.深度卷积神经网络的发展及其在计算机视领域的应用[J].计算机学报, 2017, 40.
[4] 陈 玄,朱 荣,王中元.基于融合卷积神经网络模型的手写数字识别[J].计算机工程,2017,43(11):187—192.
[5] 邹铁.基于深度卷积网络的图像分类算法研究[J].四川:四川广播电视大学雅安分校,2017.
[6] 李嫒嫒.卷积神经网络优化及其在图像识别中的应用[D].沈阳:沈阳工业大学,2016.
[7] 张俊,李鑫.TensorFlow平台下的手写字符识别[J].电脑知识与技术,2016,16:199-201.
[8] 刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,7:1921-1930,1942.
[9] 陈先昌.基于卷积神经网络的深度学习算法与应用研究[D].浙江:浙江工商大学,2014.
[10] 余凯,贾磊,等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,9:1799-1804.
[11] Jind#345;ich Helcl Jind#345;ich Libovicky.Neural Monkey: An Open-source Tool for Sequence Learning[J].The Prague Bulletin of Mathematical Linguistics ,2017,1:5-17.
[12] Chongsheng Zhang1, Pengyou Wang1, Ke Chen2.Identity-aware convolutional neural networks for facial expression recognition[J].Journal of Systems Engineering and Electronics,2017,4:784-792.
[13]SRINIVAS S. BABU R V. Deep Learning in Neural Networks: An Overview[J]. Neural Networks, 2015, 61:85-117.
[14] Deng,L.The MNIST Database of Handwritten Digit Images for Machine Learning Research [Best of the Web][J].IEEE Signal Processing Magazine,2014,12.
[15] Ciresan D, Meier U,Schmidhuber J. Multi-column deep neural networks for image classification[C]//Computer Vision and Pattern Recognition (CVPR),2012 IEEE Conference on. IEEE, 2012: 3642-3649.