基于深度学习的手写字符识别开题报告
2020-04-11 17:49:21
1. 研究目的与意义(文献综述)
随着计算机技术的推广应用,尤其是互联网的日益普及,人类越来越多地依赖计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行。在日常生活和工作中,存在着大量的文字信息处理问题,因而将文字信息快速准确地输入计算机的要求就变得非常迫切。光学字符识别技术(ocr)是计算机自动、高速地辨别纸上的文字,并将其转化为可编辑的文本的一项实用技术。它是新一代计算机智能接口的一个重要组成部分,也是模式识别领域的一个重要分支。
手写字符识别是ocr领域的一个基础的问题,字符识别要解决数据的采集、处理及选择、输入样本表达的选择、模式识别分类器的选择以及用样本集对识别器的有指导的训练等问题。字符识别和处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等。目前文字识别技术己经广泛应用到了各个领域中,它作为计算机智能接口的重要组成部分,在信息处理领域中可以大大提高计算机的使用效率,是办公自动化、新闻出版、计算机翻译等领域中最理想的输入方式,将庞大的文本图像压缩成机器内码可以节省大量的存储空问。
深度学习(deep learning)是机器学习领域的重要分支,隶属于神经网络范畴,旨在通过模拟人类大脑进行抽象学习的过程来解决相关问题,其本质是多层神经网络。卷积神经网络(convolutionalneural network, cnn)是一种前馈神经网络,它包括卷积层(convolutional layer)和池化层(pooling layer)。由于其在处理图像分类问题的高效性和准确性,引起了专家学者的广泛重视。
2. 研究的基本内容与方案
本课题设计了一个深度卷积神经网络模型,并使用tensorflow对模型进行实现,从识别手写数字开始,到识别大小写手写字母。最后应用于手写字符数据集mnist和chars74k并评估。
在模型设计的过程中参考了yann lecun于1994年提出的lenet-5模型,其主要特点如下:
1)每个卷积层包含三个部分:卷积、池化、非线性激活函数
3. 研究计划与安排
(1)第七学期末,确定设计题目。
(2)第1—4周,根据所选的题目收集相关技术文献资料,完成开题报告,中英文翻译和文献检索工作。
4. 参考文献(12篇以上)
(1)孙志军,薛磊,许阳明,等. 深度学习研究综述[j].计算机应用研究,2012,29( 8) : 2806-2810.
(2)尹宝才, 王文通, 王立春. 深度学习研究综述[j]. 北京工业大学学报, 2015,第1期:48-59
(3)孙志远, 鲁成祥, 史忠植, 马刚. 深度学习研究与进展[j]. 计算机科学, 2016, 第2期: 1-8