基于卷积神经网络的手写栅格数字识别研究开题报告
2022-01-05 21:41:19
全文总字数:3148字
1. 研究目的与意义及国内外研究现状
深度学习是机器学习领域的研究热点,它使机器学习更加接近人工智能。作为深度学习的一类经典模型,卷积神经网络已被广泛应用于语音识别、图像识别和自然语言处理等领域中。手写数字识别是光学字符识别技术(简称为 ocr)的一个分支,本质是图像识别。本文对手写数字识别的研究是基于谷歌第二代人工智能学习系统tensor flow,构建卷积神经网络模型。将mnist手写字符作为训练集输入神经网络,训练过程中不断调整权值和阈值,最终得到有较高识别精度的模型。手写数字因为其简单性和广泛应用,对它的研究有着重要的价值,手写数字类别少,识别过程相对简单,能够帮助快速的验证新的理论和更加深入研究理论,且手写数字识别的方法很容易推广到其他的相关问题。手写数字应用广泛,在邮政、银行、金融等行业,需要大量处理手写数字信息时,手写数字识别能够帮助节省人力物力,提高办公效率。识别的阿拉伯数字是世界通用的符号,使得手写数字识别的研究与文化背景无关,方便研究之间的比较和讨论。
国内外研究现状
图片分类和识别的复杂性与特殊性,国内有关专家与学者借鉴了国外的优秀研究成果,联系了我国实际情况,做了很多的研究。其中大多数都是运用规则和统计结合的方式:归纳并且人工筛选目标物特性,再联系统计数学模型来达到。
国内对手写数字的研究起步比较晚,并且主要集中在对特定场景的研究上。中科院自动化研究采用有限状态自动机识别手写体数字,达到 95.2% 的正确率;清华大学针对金融票据中的手写数字,采用支持向量机的方式,在 20000 个测试样本上达到 92% 的正确率;上海交通大学选用人工神经网络作为分类器,对 6000 个样本进行测试,达到 97.58% 的正确率。
2. 研究的基本内容
手写字符的识别本质上是图片分类问题,即将图片分类到数字 0到 9 对应的 10 个类别。基本原理是将输入样本数字进行图片特征的提取,选择分类器,并与对应的标准样本数字进行模式匹配,匹配结果是跟标准样本数字具有最大相似度的数字。其中,特征提取的方法和分类器的设计直接决定系统的分类效果。
图像识别的一般过程
(一)划分数据集
3. 实施方案、进度安排及预期效果
1、实行方案
基于谷歌第二代人工智能学习系统tensor flow,构建卷积神经网络模型。将mnist手写字符作为训练集输入神经网络,训练过程中不断调整权值和阈值,最终得到有较高识别精度的模型。将图片分类到数字 0到 9 对应的 10 个类别。基本原理是将输入样本数字进行图片特征的提取,选择分类器,并与对应的标准样本数字进行模式匹配,匹配结果是跟标准样本数字具有最大相似度的数字。
2、进度:
4. 参考文献
[1] 李琼,陈利,王维虎.基于 svm 的手写体数字快速识别方法研究.计算机技术与发展2014.
[2] 龚声蓉.数字图像处理与分析北京:清华大学出版社,2006
[3] 张婷.基于图像识别技术的光学标记阅读机的研究与应用. 安徽大学,2007