基于分类算法的手写数字识别方法研究与实现文献综述
2020-04-14 17:21:45
1、目的及意义 1.1 研究目的及意义 进入21世纪以来,信息技术的飞速发展推动了计算机、网络、通信等尖端产业的发展。在近些年来,信息技术作为一种生产力不仅关系到千家万户生活点滴,而且信息技术也正在成为重要的物质基础,虽然它是一个抽象的概念。即便是在信息技术高速发展的今天,各行各业的重要的档案记录和文件或是签名也必须通过手写进行记录。但是,若是采取人工读取与录入这些信息,一方面书写者的隐私得不到保护;另一方面,人工读取的效率过低,尤其是在面对海量数据时。因此,利用高效的算法对海量的手写体数据进行识别就显得极为重要,利用算法对手写体进行识别不仅可以保证数据读取的速度而且也可以保证极低的错误率。在对手写体数据的处理当中,对手写体数字的识别显在现实生活中显得极为重要。 手写数字体识别(Handwrittendigits recognition)是光学字符识别技术(Optical CharacterRecognition,OCR )的一个分支,其目的是让计算机通过算法自动识别出纸张上的手写数字。由于手写数字识别问题具有重要的实际价值,并且对他的研究能够推动图像处理这一学科的发展。在众多的研究工作中,又可以分为联机识别和脱机手写体数字识别两类。脱机手写体数字识别涉及的典型问题如图像处理,模式识别、统计理论等学科,它具有综合性极高的特点。尽管由于数字自身的笔画、字型等因素,使得计算机还未做到全部正确识别,但脱机识别早已十分广泛,例如在邮政编码自动识别、银行票据录入、文本信息处理等领域。因此近几十年来,国内外有众多的专家学者对手写体数字的识别算法及其实现过程进行了研究。与脱机识别所不一样的是,联机识别是通过记录文字图像抬笔、笔迹上各像素的空间位置等信息来进行处理,现研究已比较成熟。本文的研究对象为手写体数字的脱机识别。 传统的数字识别技术可以看做是一个图像分类问题——对二维向量的灰度图进行分类,属于模式识别的一种。显然,手写体数字是传统的数字识别技术。模式识别是利用特定的计算机算法对各种图形进行自动处理和判断。随着计算机技术的发展,人们可以通过各种智能算法或是机器学习来处理复杂的信息。生物对环境以及外在客体的识别是信息处理过程当中的一种重要形式,而对于人类来说,识别光学信息(通过视觉器官获得)和谐波信息(通过听觉器官获得)是特别重要的。这是模式识别的两个重要方面。因此要想计算机对信息的处理达到和人类相当的程度,这两个方面是不可忽略的。目前市场上有代表性的产品是光学字符识别和语音识别系统。 1.2 国内外研究现状 数字识别属于光学字符识别类。阿拉伯数字的类别只有1~10十种,笔划简单,合理的设计算法对其识别起来不是很困难。但是在实际的测试当中,计算机通过算法识别印刷体的数字的正确识别率要比识别手写体数字的正确率高。造成这一现象的主要原因有:第一,虽然阿拉伯数字只有十种类别并且笔划简单,但是相同的一个数字,由于字迹的差别,每个人的写法却大为不同。阿拉伯数字在世界各国和地区都是通用的,受到母语写字手法的影响,各地人民的字迹其有明显的地域特征;第二数字笔划简单而平滑,有些字形之间形状相差不大(比如1和7),准确区分某些数字是非常困难的,因此,研究高性能的手写体数字识别算法是一项具有挑战性的任务。 20世纪40现代计算机的出现以及50年代的人工智能和近些年来非常火爆的机器学习,都极大地推动了手写体数字识别算法的研究与发展。尤其是近年来机器学习与人工智能的崛起,更是使得手写体数字的识别率到达了前所未有的高度。迅速发展的数字自动识别技术已被广泛用于身份识别、资产管理、高速公路的收费管理、门禁管理等领域。自上世纪70年代开始,我国数字识别技术研究一直都在追赶国外,并逐步提高识别率,使得一些成熟的技术成为使用的产品。除了手写体数字的识别得到极大的应用并产生了巨大的社会价值。手写体汉字识别(包括联机与脱机)、印刷体汉字识别系统以及联机手写数字识别都已经走出实验室成为了成熟的商用产品。我国目前针对手写体数字的识别算法及其实现都做的不错,与国外的水平不相上下。但是,国内并针对手写数字识别的专用硬件设备非常的少。 与国内的研究相比,国外科学家对文字识别研究开始的时间要比国内早几十年。早在1929年,德国科学家Taushek便利用光学模板匹配识别,从此开创了用机器识别文字符号的先河。从上世纪50年代开始,欧美国家有海量的材料需要输入计算机进行信息处理,为了减少人力物力,从此就开始西文光学字符识别(Optical CharacterRecognition, OCR)的研究。OCR的意思从此变味了为了利用光学技术对文字和字符进行扫描识别,进而转化为计算机内码。在1960—70年代,对OCR技术研究的国家数目激增,各个国家都相继开始了OCR的研究。而在对OCR的研究初期,大多数的研究都是针对0~9这九个阿拉伯数字展开的。商业公司中IBM公司是最早开发的OCR商用产品,并且在1965年的纽约世界博览会上展出了IBM公司的第一款OCR产品──IBM1287。当时的这款产品功能简单,只能识别特定字体的印刷出来的的数字、英文字母及部分符号,而且识别率不尽人意。日本对于OCR的基本识别理论最早开始于1960年左右,初期与其他国家一样也是以数字为对象。到了19世纪60年代末期,日立公司和富士通公司也分别研制出各自的OCR产品。并且世界上第一个实现手写体邮政编码识别的信函自动分拣系统是东芝公司发明的,在东芝研制出该系统两年之后,日本电气公司也推出了能够实现同样功能的信件分类系统。随着研究技术的深入,到了1974年日本的信函分拣系统的正确分拣率达到92%左右。 中国在OCR技术方面的研究工作相对与国外起步较晚,在1960年左右才初步开始对数字、英文字母及符号的识别进行理论与实际的研究,20世纪70年代末开始进行汉字识别的研究。1986年,北京信息工程学院、清华大学、沈阳自动化所三家单位由国家863计划信息领域课题组牵头,正式展开了对中文OCR软件的开发工作。至1989年,中国国内第一套中文OCR软件(清华文通TH-OCR 1.0版)正式由清华大学率先推出了,从此标志着中国的OCR技术从理论阶段走向了实际应用阶段,也由实验室的实验品变为了商用的产品并走向了市场。上个世纪90年代中后期,清华大学电子工程系提出并进行了“汉字识别综合研究”研究课题,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。这其中最具有代表性的成果是TH-OCR 97综合集成汉字识别系统,它不仅可以完成中文的印刷文本、联机与脱机手写汉字和手写数字的识别输入,而且也能完成日语,英语等国外语系的识别。近些年来,除清华大学的文通TH-OCR面向市场之外,其它公司开发的比如百度OCR等各具风格的OCR软件也相继推向了市场,中文和数字识别市场稳步扩大,用户遍布世界各地。 近几年来由于人工智能和机器学习的发展,国内对数字识别的算法研究还是相当深入的,也取得了很大进步,使系统的识别率不断上升。目前,印刷体数字的识别率己达到99%以上,其中联机手写数字的识别率己达到99%,但是脱机自由手写体数字的识别率只有90%。脱机自由手写体数字的识别率显然不能满足社会的迫切需要,因为在很多实际应用系统中,一个数字的识别错误可能导致巨大的损失。因此对于脱机手写体汉字的识别仍有待于进一步提高。 总而言之,手写体数字识别技术的研究是一项复杂的系统工程,虽已走过了20多年的研究历程,但是在识别率和识别速度上仍然很难达到社会的需求,仍需相关学科的研究工作者共同努力,可谓任重道远。随着计算机科学、心理学、人工智能等交叉学科的融合发展,以及市场需求的驱动,手写体汉字识别技术将会取得更大的进展。 |
2. 研究的基本内容与方案
{title} 2、研究(设计)的基本内容、目标、拟采用的技术方案及措施 本文通过目前识别手写数字的主要方法:k-近邻(KNN)、决策树(Decision Tree)、朴素贝叶斯、逻辑回归、支持向量机、随机森林、神经网络等,来将手写体数字转化为计算机内码进行储存。并从上述的分类算法中选择不少于3种方法,研究了它们的算法工作原理,完成模型建立。对MINST公开的手写数字集进行识别处理,统计各种方法的识别成功率,分析各种方法成功率不同的原因。 本文手采用的手写体数字识别的方法为决策树、神经网络和支持向量机(Supportector Machines,简称SVM)方法,SVM方法自从上世纪90年代被提出以来,就一直是手写数字识别领域的热门方法。训练SVM等价于解一个线性约束的二次规划问题,使得分隔特征空间中两类模式点的两个超平面之间距离最大,而且它能保证得到的解为全局最优点,使得基于SVM的手写数字分类器能够吸收书写的变形,从而具有较好的泛化能力。而神经网络是对人脑的一种模拟,是仿生的一种体现。本文利用神经网络对给定的手写体数字进行识别。由于对数字图片存在多种特征提取方法,并且不同的特征提取方法对网络识别率具有很大的影响,因此采用不同的特征提取方法进行研究,来观察结果的优劣。由于神经网络的搭建参数比较多,因此在研究的过程中,参数的选择也会对识别结果产生较大的影响。与神经网络相比,决策树具有构建简单,而且,决策树还能够同时处理数据型和常规型的属性,其它技术却往往要求数据属性单一。最重要的是决策树是一个白盒子模型,如果给定一个观察的模型,那么根据所产生的决策树很容易推断出相应的逻辑表达式。因此,决策树能够在相对短的时间内对大型数据做出可行且效果良好的结果。因此利用决策树对手写体数字进行识别具有良好的可行性。 |
4、参考文献 ADDIN EN.REFLIST [1] ELLEUCH M, MAALEJR, KHERALLAH M. A new design based-SVM of the CNN classifier architecturewith dropout for offline Arabic handwritten recognition [J]. ProcediaComputer Science, 2016, 80(1712-1723.
[2] HASSAN A K A.Arabic (Indian) Handwritten Digits Recognition Using Multi feature and KNNClassifier [J]. Journal of University of Babylon, 2018, 26(4): 10-17.
[3] KABRA R R. Contractiveautoencoder and SVM for recognition of handwritten Devanagari numerals;proceedings of the 2017 1st International Conference on Intelligent Systemsand Information Management (ICISIM), F, 2017 [C]. IEEE.
[4] LECUN Y, BOSER BE, DENKER J S, etc. Handwritten digit recognition with a back-propagationnetwork; proceedings of the Advances in neural information processing systems,F, 1990 [C].
[5] LECUN Y, JACKELL, BOTTOU L, etc. Comparison of learning algorithms for handwritten digitrecognition; proceedings of the International conference on artificial neuralnetworks, F, 1995 [C]. Perth, Australia.
[6] NAIK V, DESAI A.Online Handwritten Gujarati Numeral Recognition Using Support Vector Machine[J]. 2018,
[7] ROY P, GHOSH S,PAL U. A CNN Based Framework for Unistroke Numeral Recognition inAir-Writing; proceedings of the 2018 16th International Conference onFrontiers in Handwriting Recognition (ICFHR), F, 2018 [C]. IEEE.
[8] SCHAETTI N,SALOMON M, COUTURIER R. Echo state networks-based reservoir computing formnist handwritten digits recognition; proceedings of the 2016 IEEE IntlConference on Computational Science and Engineering (CSE) and IEEE IntlConference on Embedded and Ubiquitous Computing (EUC) and 15th Intl Symposiumon Distributed Computing and Applications for Business Engineering (DCABES),F, 2016 [C]. IEEE.
[9] TUBA E, TUBA M,SIMIAN D. Handwritten digit recognition by support vector machine optimizedby bat algorithm [J]. 2016,
[10] YAXUAN M, AIHARAK. Handwritten numeral recognition with a quantum neural network model;proceedings of the 2017 IEEE 2nd Information Technology, Networking,Electronic and Automation Control Conference (ITNEC), F, 2017 [C]. IEEE.
[11] 白璐. 基于卷积神经网络的文本分类器的设计与实现 [D]; 北京交通大学, 2018.
[12] 陈蔼祥. 用于字符和数字识别的若干分类方法的比较研究: 实验结果 [J]. 计算机科学, 2015, 1(
[13] 陈龙, 郄小美, 黄信静, 等. 手写体数字字符识别算法仿真比较研究 [J]. 实验室研究与探索, 2017,36(01): 93-97 103.
[14] 董慧. 手写体数字识别中的特征提取和特征选择研究 [D]; 北京邮电大学, 2007.
[15] 金忠, 胡钟山, 杨静宇, 等. 手写体数字有效鉴别特征的抽取与识别 [J]. 计算机研究与发展, 1999, 12):1484-1489.
[16] 李芳, 李征, 柯熙政. Matlab在《现代通信原理与系统》实验中的应用 [J]. 教育教学论坛, 2018, 25): 267-269.
[17] 李英杰. MATLAB与CCU之间的TCP/IP通讯技术开发与应用 [J]. 计算技术与自动化, 2011, 30(04): 126-129.
[18] 刘殿金, 魏兵. 基于Matlab和TCP/IP的测试系统开发及应用 [J]. 电子测试, 2016, 19):111-113.
[19] 柳回春, 马树元, 吴平东, 等. 手写体数字识别技术的研究 [J]. 计算机工程, 2003, 04):24-25 61.
[20] 王俊杰. 优化BP神经网络在手写体数字识别中的性能研究 [J]. 电子设计工程, 2017,25(06): 27-30.
[21] 张捷. 手写数字识别的研究与应用 [D]; 西安建筑科技大学, 2004.
[22] 张猛, 余仲秋, 姚绍文. 手写体数字识别中图像预处理的研究 [J]. 微计算机信息, 2006, 16): 256-258.
[23] 邹丽梅, 郭波, 钱学毅. MATLAB实现组态王中TCP/IP读卡器监控方法 [J]. 武夷学院学报, 2015,34(03): 72-75.
|