基于支持向量机的手写数字识别毕业论文
2022-03-01 20:06:56
论文总字数:21102字
摘 要
模式识别经过科学家们几十年的研讨,如今已在生活中的各个环节发挥着很关键的作用,而手写数字识别则是模式识别当中一个关键分支,从一开始的旧机器识别到光学字符识别,再到OCR,科学家们一步一步的用计算机技术解决了很多生活上的问题。手写数字识别是目前人们很关心的一个话题之一,很多学者在努力的提高字符的辨别率,为此探讨出了多种不一样的方式,以各种不同的核心在提高着辨别准确率,已经极大地提高了识别的精度,但社会在发展,以前的识别精度已满足不了现代的社会需求,所以一种新的识别方法——支持向量机悄然问世。本文则是在前人研究的基础上,着重对SVM识别分类器进行进一步的探讨,相对于人工分类,神经网络,决策树等传统方法,SVM在局部最优解上比其他方法有更好的解决方案,SVM的普及能力和训练记忆能力也是其它分类器少有的强大能力,从而能大大的提高识别精度,还能减少训练样本的时间,这就是SVM的强大所在。
关键词:手写数字识别 支持向量机 多类分类
Handwritten numeral recognition based on Support Vector Machines
Abstract
Pattern recognition by scientists for decades of research, now in all aspects of life plays a key role, and the handwritten numeral recognition is a key branch of pattern recognition, from the beginning to the old machine recognition, optical character recognition, and then to OCR, the scientists step by step with the computer technology to solve a lot of problems in life. The handwritten numeral recognition is now a good research carrier, in order to more accurate recognition rate, shorter time, the scholars studied several methods of handwritten numeral recognition, has greatly improved the recognition accuracy, but with the development of society, the recognition precision cannot meet the modern society so, a new recognition method, support vector machine quietly come out. This paper is on the basis of previous studies, focuses on the further research on SVM classifier, the artificial neural network, decision tree classification, and other traditional methods, SVM has a good learning ability and generalization ability, which is not available in other ways, the SVM optimal solution obtained will not appear too learning and local minimum problem, which can greatly improve the recognition accuracy, but also reduce the time of training samples, this is where the powerful SVM.
Keywords: Handwritten numeral recognition; Support vector machines; Multi class classification
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1研究意义 1
1.2国内外现状 1
1.3数字识别的理论价值及技术难点 2
1.4本文拟研究内容 3
1.5本文章节安排 3
1.6本章小结 4
第二章 手写数字识别的常用分类及SVM理论初识 5
2.1手写数字识别常用方法简介 5
2.1.1基于模板匹配分类方法 5
2.1.2基于BP神经网络分类方法 6
2.2支持向量机的理论基础 6
2.2.1结构风险最小理论 7
2.2.2统计学理论的VC维理论 7
2.3支持向量机的算法介绍 8
2.3本章小结 9
第三章 基于SVM算法的手写数字识别分析 10
3.1手写数字识别系统概述 10
3.2手写数字识别中的预处理技术 12
3.2.1图像灰度化 12
3.2.2图像二值化 13
3.2.3图像去噪 14
3.2.4字符分割 14
3.3手写数字识别中的特征提取 15
3.4 建立支持向量机 16
3.5本章小结 20
第四章 性能对比实验 21
4.1与模板匹配法的比较 21
4.2 与BP神经网络的比较 23
4.3本章小结 26
第五章 总结与展望 27
致 谢 28
参考文献 29
第一章 绪论
1.1研究意义
阿拉伯数字是人类文明发展过程中的的一个里程碑,是日常生活中所必不可少的交流方法之一,数字的信息作用是经济发展的桥梁,数字的作用已经关系到生活中的点点滴滴,是人们不可或缺的信息基础。在日常生活中,我们每天都要处理各式各样的文件档案、支票、汇款、税单等一系列有关数字信息的输入与输出,让人们解脱双手减轻工作量是一个迫在眉睫的问题,而处理这个问题的桥梁就是计算机这个媒介,所以科学家们着手研究各种字体自动识别系统。
手写数字识别技术是OCR(光学字符识别系统)[1]中的一个重要研究方向,这也是传统的一个技术难题,尽管现在已经相较过去取得了巨大的突破,但是仍然与现代化社会完全接轨。阿拉伯数字作为全世界唯一一个通用文字[1],各国之间不存在数字文化上的差异,所以提供给了各国的研究学者充分的发展舞台。现实生活中手写数字识别得到了广泛的应用例如全国人口普查、税单签收、邮政编码等各个领域[2],从而让电子计算机更加精确的自动识别纸张上的手写体阿拉伯数字变得尤为紧迫。目前我国正在各个领域都有着大量的数据信息汇入计算机,这使得人工处理这些数据信息会变得异常复杂,劳动量大大增加,这极其不利于工作的效率,而经过手写数字识别能力使数据自动输入,能够快速的促进各个领域的发展,将会给社会产生巨大的经济效益,因此,手写数字识别研究有着重大的现实意义。
1.2国内外现状
20世纪20年代,模式识别初诞生,德国研究学者们利用光学膜版匹配识别,开创了机器识别字体的先河。后来,为了能处理大量输入计算机的资料,欧美科学家从50年代开始了OCR(光学字符系统)的研究,即利用光学扫描转化成计算机代码[3]。随着计算机技术、半导体和模式识别基础理论的不断更新与发展,联机手写字符识别技术逐渐应用于现实生活中,到了80年代后期,英文字母已经较为成熟的被识别,从中作出巨大贡献的IBM公司努力的把OCR技术推向世界,随后相继出现了汉字,数字等各个字体的识别研究[4]。
与此同时中国科学院、清华大学、北京大学等著名研究院相继开展了对字符识别的研究[5],从而让字符识别的研究进入了高潮,特别是在印刷体汉字识别模块取得了重大的研究成果。在这里特别要说的是在90年代,提出统计学理论后[3],SVM理论才得到广泛的重视,统计学理论很好地解决了线性不可分的问题,这是研究界上的一个重大突破,从而正式奠定了SVM的理论基础,而后又在模式识别版块上取得成功的应用,其表现比目前的人工神经网络好很多,但是,一开始SVM的缺点也很明显,就是随着实验样本的加大加多,SVM的训练时间也会成倍增长,从而限制了它在很多领域的发展,因此需要对SVM进行不断的优化。总而言之,手写数字识别技术的发展仍任重而道远。
1.3数字识别的理论价值及技术难点
手写数字识别有着广大的发展前景,其理论价值也是不可估量的:①阿拉伯数字作为唯一一个被全世界所熟悉通用的文字[1],其研究意义被各国学者所认同,而这没有任何差异的文化,利于各国学者的交流研究。②手写数字在现实中应用的很多,例如行业年检,人口普查,金融应用等方面需要大量的信息数据,手动的话太过劳累,而手写体自动辨认极大地优化这类问题,发展前景无可限量。③如果能把0~9这几个简单的数字识别解决,识别的速度、精度达到人们所期望的一个值,就可以向更复杂的手写体方向发展,使得大量的信息数据得到轻易地梳理。
请支付后下载全文,论文总字数:21102字