基于机器学习的手写字识别毕业论文

2020-02-17 23:04:07

摘要

随着科技的进步与发展，现在我们已经进入了信息时代，进入了大数据时代，进入了人工智能的时代。作为世界三大尖端技术之一，人工智能已经在各个领域得到了广泛的应用，并且取得了许多成就，推动着整个社会经济的发展与进步，人工智能技术在数据、信息的获取中占领了重要的地位。机器学习是人工智能最重要的实现方式之一，深度学习是机器学习的研究方向之一。

手写数字识别是指利用计算机将人们手写的0-9十个数字进行辨别、分类，该技术在手机手写体输入、邮政系统邮编信件分拣等各个领域都占据着重要的席位。至今为止，手写数字识别技术已经比较完善，各种算法层出不穷且行之有效。本文利用深度学习中近年来研究较多的自编码器对手写数字进行识别研究，本次设计是基于MATLAB来搭建神经网络的，首先读取MNIST数据集，然后采用逐层贪婪训练的半监督算法训练深度稀疏自编码器神经网络，本次设计的稀疏自编码器分为两层，分别对手写体数字集提取一阶特征、二阶特征，最后通过Softmax函数设计多分类器，对手写体数字进行识别。

通过多次测试，发现本次设计搭建的深度神经网络比较成功，识别效果较好。通过控制变量法，发现稀疏自编码器的稀疏性约束对整个神经网络的性能影响较大。

关键词：深度学习，自编码器，分类器

ABSTRACT

With the advancement and development of science and technology, now we have entered the information age, entered the era of big data, and entered the era of artificial intelligence. As one of the world's three cutting-edge technologies, artificial intelligence has been widely used in various fields, and has achieved many achievements, promoting the development and progress of the entire social economy. Artificial intelligence technology has occupied an important role in the acquisition of data and information. Status. Machine learning is one of the most important ways to realize artificial intelligence. Deep learning is one of the research directions of machine learning.

Handwritten digit recognition refers to the use of computers to identify and classify people's handwritten 0-9 ten digits. This technology occupies an important seat in various fields such as mobile phone handwriting input, postal system zip code sorting and so on. So far, handwritten digit recognition technology has been relatively perfect, and various algorithms have emerged in an endless stream and are effective. In this paper, we use the self-encoder which has been studied in deep learning in recent years to identify handwritten digits. This design is based on MATLAB to build a neural network, first read the MNIST data set, and then use the semi-supervised algorithm of layer-by-layer greedy training. The training sparse self-encoder neural network is divided into two layers. The first-order features and second-order features are extracted from the handwritten digits. Finally, the multi-classifier is designed by Softmax function to recognize the handwritten digits. .

Through many tests, it was found that the deep neural network designed by this design was successful and the recognition effect was good. Through the control variable method, it is found that the sparsity constraint of the sparse self-encoder has a great influence on the performance of the whole neural network.

Keyword: Deep Learning, Self-Encoder, classifier

摘要 I

ABSTRACT II

第1章绪论 1

1.1 选题背景及意义 1

1.2 国内外研究现状 1

1.3 研究内容及论文框架 2

1.3.1 研究内容 2

1.3.2 论文框架 2

第2章手写数字识别神经网络对比 4

2.1 神经网络 4

2.2 自编码器 5

第3章图像特征提取 8

3.1 稀疏自编码器 8

3.2 逐层贪婪训练 9

3.3 稀疏自编码器设计 10

第4章 Softmax分类和微调 13

4.1 Softmax分类 13

4.2 Softmax分类器实现 14

4.3 微调 15

第5章实验结果分析 17

5.1 MNIST数据集介绍 17

5.2 程序运行环境 18

5.3 实验结果分析 18

第6章结论与展望 24

参考文献 25

致谢 27

第1章绪论

1.1 选题背景及意义

手写体数字识别是光学字符识别技术（Optical Character Recognition,OCR）的一个分支，研究目的是为了让计算机自动识别出手写体数字。基于机器学习的手写数字识别是使用计算机通过一些算法实现对手写体数字的识别与分类。作为21世纪世界三大顶尖技术之一的人工智能技术在信息时代扮演着重要的角色，机器学习已经演变成了非常热门的研究领域，它是人工智能的核心，是使计算机具有智能的根本途径，是一门涉及了概率论、统计学、逼近论、算法复杂度理论等多门学科的多领域交叉学科。其中，深度学习通过建立神经网络，模仿人类思考、学习的过程，在计算系统中实现人工智能^[3]。深度学习被用于对复杂结构和大样本的高维数据进行学习，按研究领域包括计算机视觉、自然语言处理、生物信息学、自动控制等，且在人像识别、机器翻译、自动驾驶等现实问题中取得了成功。

随着信息时代的到来，信息建设在我国发展迅速，手写字识别技术已经被广泛应用，在整个OCR领域，最为困难的就是脱机手写字符的识别，虽然现在在脱机手写英文字母、汉字的识别研究中已有了一定建树，但距离该技术的实际应用还有一定的距离，然而手写体数字识别技术目前已较为完善，该技术在日常生活中使用广泛，如手机手写体输入、邮政系统邮编信件分拣等各个领域都有广泛使用。虽然本文只研究了手写数字识别，但对研究手写英文字母、手写汉字地识别技术有一定帮助及意义。而且手写数字识别较为基础，是了解机器学习的不二之选，更好地理解机器是如何模仿人类来进行学习，为进一步学习人工智能等相关知识打下基础。

1.2 国内外研究现状

机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。这里的“机器”指的就是各种计算机，包括电子计算机、光子计算机等等。自1959年美国Samuel写了一个具有学习功能的下棋程序之后，展示了机器学习的能力，提出了许多令人深思的社会问题与哲学问题。

机器学习是一门关于人工智能的科学，尤其是在如何从经验学习中改善具体算法的性能方面，机器学习也被定义为对能通过经验自动改进的计算机算法的研究。它是人工智能研究中比较年轻的分支了，一般将其发展分为以下4个时期：（1）热烈时期，20世纪50年代中叶到60年代中叶，研究目标是各类自组织系统和自适应系统；（2）冷静时期，20世纪60年代中叶到70年代中叶，研究目标是模拟人类的概念学习过程，并使用了图结构或逻辑结构来作为机器的内部描述；（3）复兴时期，20世纪70年代中叶到80年代中叶，本阶段已开始把学习系统与各种应用结合起来；（4）最新阶段，自1986年至今，体现在已经在高校形成一门课程、机器学习与人工智能各种基础问题的统一性观点逐渐形成、各种学习方法在各个领域不断扩大等各个方面^[8]。

随着机器学习不断的发展，手写字识别技术也随之迅速发展，其中，阿拉伯数字是世界上唯一被各国通用的符号，在手写数字识别领域，各国、各地区的研究工作者们各显神通，在该领域已经取得了很多成果，且手写数字识别已经在人工智能、遥感数据分析、系统控制等领域广泛使用^[9]。

虽然手写数字识别已经研究了很长一段时间，且国内外学者也提出了大量识别率高的算法，例如K-近邻算法、卷积神经网络、BP神经网络等均可用于进行手写数字识别，但仍然存在着一些问题导致识别正确率还未达到理想状态^[10]。一是不同人写不同数字差异很大，机器识别目前还达不到100%正确识别，更何况即使是同一个人写同一个数字也会有一定差异。二是图像噪声不可避免，仍有许多不确定因素下的干扰性^[11]。三是在识别中用到的分割、特征提取等各种技术，在训练速度、各类核函数参数选择方面未同时兼顾稳定、精度与速度等性能再加上研究手写数字识别，也是为了将其扩展至英文字母、汉字等的识别以满足现实问题高需求的应用性^[12]。

1.3 研究内容及论文框架

1.3.1 研究内容

本次课题是基于机器学习的手写字识别，本次设计通过MATLAB R2017a搭建一个深度稀疏自编码器神经网络来对手写数字进行识别。

1.3.2 论文框架

第一章介绍了本次选题的背景及意义，简单叙述本课题的国内外研究现状，以及本章末尾安排了本次课题的设计工作和论文的框架。

第二章介绍了人工神经网络与自编码器的相关知识。

第三章介绍了稀疏自编码器的原理以及本次设计如何实现堆叠深度稀疏自编码器。

第四章介绍了softmax回归并应用于本次设计，用于设计分类器。

第五章介绍了本次设计的整体网络，并测试该神经网络，以及本次设计的结果分析。

第六章总结了本次设计过程，并简单叙述了对本课题前景的展望。

第2章手写数字识别神经网络对比

2.1 神经网络

人工神经网络也简称为神经网络，是20世界80年代以来人工智能领域兴起的研究热点，通过模仿动物中枢神经系统（尤其是脑）的行为特征，大脑组织结构以及思考方式的一个数学模型，类似于大脑神经突触联接的结构，该网络通过各神经元直接或间接的联系达到处理信息的目的。神经网络被广泛应用于数学、统计学、计算机科学等各个领域^[13]。神经网络通常以大量的“神经元”相互连接的形式呈现，连接节点一般是运算函数，组成一个加权的计算模型，达到模拟人脑学习方式的目的。神经网络的输出由其结构、连接方式、节点的权重、激励函数等多种因素所决定。人工神经网络的实现靠数学统计工具，是融合生物神经网络和数学统计模型的产物，在人工感知中，我们还可以利用数学统计的方法让人工神经网络用于决定和判断这类生物独有的能力。

人工神经网络的模型与生物模型类似，但在生物模型的基础上采用了一种并行的方式处理信息，对原始模型进行了优化。人类大脑皮层就是由大量的神经元构成，神经元包含了时空整合，兴奋与抑制，学习，记忆，疲劳，遗忘等多种功能，是一个异常庞大的神经网络系统^[15]。人工神经网络便是基于人类大脑皮层神经网络，让计算机也获得学习，记忆的能力。

早期的神经网络使用的是感知器，感知器有一个或多个（,,...）输入，而输出是为二进制，感知器的简易模型如图2.1所示。

output

图2.1 感知器简易模型

感知器的输出为：

0 , if

Output=

1 , if

感知器的计算引入了权重,表示相应输入对输出的作用程度，threshold为阈值，觉得神经元的输出为0还是1.。阈值的微小改变都可能对其输出造成巨大的影响。

随着神经网络模型的不断发展，感知器因为计算的限制已经被拥有更强大功能的神经网络所代替。神经网络模型在之后有了更加丰富的层次，添加了隐层这一层次部分，其模型如下图2.2所示。

输出层

隐藏层

输入层

图2.2 多层神经网络基本结构

人工神经网络模型主要考虑神经元连接的拓扑结构，可分为前向网络和反馈网络。前向网络中没有反馈，结构简单，易于实现，而反馈网络内神经元之间存在反馈，系统的稳定性与联想记忆功能有密切关系。

学习是神经网络研究的重要环节，根据环境变化，对神经元连接节点权值进行调整，改善系统的行为。根据学习环境的不同，可以将神经网络的学习方式分为监督学习和无监督学习。简单来说，前者的训练数据是有标签的标准数据，而后者的训练样本无标签，不给定标准样本，学习阶段与工作阶段融为一体。

2.2 自编码器

自编码器是一种无监督的数据维度压缩和数据特征表达方法，它是神经网络的一种，经过训练后能将其输入复制至输出。如图1.1所示。其中编码器用h=f(x)表示，而译码器为r=g(h)=g(f(x)),其目标就是为了优化损失函数L(x,g(f(x))),也就是为了减少图中所示的ERROR。

Input code reconstruction h=f(x)

x h r r=g(h)=g(f(x))

图2.3 自编码器模型

自编码器是一个3层以上的神经网络，由编码器、隐藏层、译码器三部分组成，将输入x编码为h，然后再将h译码回x，使用反向传播算法来训练网络使得输出等于输入。自编码器的产生一直是神经网络历史上不可或缺的一部分，传统自编码器通常被用于提取特征或数据降维。

构建自编码器模型的结构图如图2.4所示。

开始

结束

图2.4 自编码器模型结构

构建自编码器与构建神经网络一样，需要确定输入层、隐藏层、输出层的节点，以及各层之间的权重。因为自编码器的特性，我们并不关注该网络的输入输出，而关心的是隐藏层所学习的特征或降维后的数据。

在图像处理和计算机视觉领域，使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征被称为特征提取，其结果是将图像上的点分为不同的子集，而这些子集通常由孤立的点、连续的曲线或区域构成。所谓特征，通常由问题或应用类型所决定，它是数字图像中“特别”的一部分，是计算机图像分析的起点，这也是为什么一个算法的成功由它使用和定义的特征所决定。因此特征提取最重要的一个特性是“唯一性”，即不同图像在同一场景下所提取的特征应该是相同的、“唯一”的。特征是描述模式的最佳方式，特征提取的目的是降维，将输入样本投影到一个低维特征空间，从而得到最能反应样本本质或进行样本区分的低维样本特征。

特征提取是对图像进行的第一个运算处理，是图像处理中的初级运算，它通过检查像素来确定该像素是否代表一个特征。在特征提取之前，输入图像一般通过高斯模糊核在尺度空间中被平滑，然后通过局部导数运算来计算该输入图像的一个或多个特征。特征类型包括边缘特征、角特征、区域特征以及脊特征，边缘特征是组成两个图像区域之间边界的像素；角特征是图像中点一样的特征，在局部有着二维结构；区域特征是描写图像中一个区域性的结构，但该区域也可能仅由一个像素组成；长条形的物体称为脊，在实际中被看作是代表对称轴的一维曲线。而且局部针对于每个脊像素有一个脊宽度。

目前，自编码器的应用主要有两个方面，一是数据去噪，二是可视化降维。设置合适的维度以及稀疏约束可以得到比主成分分析（PCA）等技术更有意思的数据投影。自编码器能从训练数据样本无监督学习意味着该算法不需要新的特征工程，只需要一定数量的训练集就能获得较好的学习结果。其实，自编码器在图像压缩方面表现得并不是很好，因为在特定数据集下训练自编码器时，它能在处理与训练集类似的数据时可以获得较好的压缩效果，但是对于差异较大的图像数据时压缩效果不佳。

训练自编码器可以从输入数据提取大量的信息，也可以使新表征具有多种不同的属性，不同类型的自编码器旨在实现不同类型的属性，自编码器分为欠完备自编码器、正则自编码器、稀疏自编码器以及去噪自编码器。

以上是毕业论文大纲或资料介绍，该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取，微信号：bysjorg。