基于统计分析的手写汉字识别方法实现文献综述
2020-04-14 17:26:03
当今社会是一个网络四通八达、资源高度共享、信息传播迅速的信息社会。为满足资源共享、信息传播的需要,大量的中文信息都需要在计算机上进行处理。目前,计算机上的中文信息处理系统,可以让人轻松愉快地对输入的中文信息进行处理。然而汉字录入的困难制约着系统的效率,己经成为一个有待解决的“瓶颈”问题。汉字识别的研究与开发,无疑将满足人们对高速自动输入汉字的强烈要求,它在办公自动化、印刷业、信息传播等方面都有着广泛的应用前景。汉字识别是一门多学科综合的研究课题,是模式识别的热点和难点。它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具,另一方面,它的研究与开发也必将促进各学科的发展。因而,汉字识别有着重要的理论意义。
早在上世纪六十年代,人们就开始了对印刷体汉字识别的研究工作。最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy。1966年他们发表了第一篇关于汉字识别的文章,用模板匹配法识别1000个印刷汉字。1977年,日本东芝综合研究所研制出能识别2000个印刷体汉字的实验装置;1983年东芝研究中心又进行了对限制性手写体与印刷体汉字识别兼容的研究工作。七十年代末,我国开始了对汉字识别的研究。1985年,南通电子所研究出能识别两种字体1800个单字的识别方法;1986年,清华大学计算机系和沈阳自动化所先后研究出能识别3755个印刷体汉字的实验系统;1986年11月,清华大学的朱夏宁等研究的能识别6763个印刷体汉字的汉字识别试验系统通过了技术鉴定;1992年清华大学的许宁在博士学位论文中,提出了一种基于人工神经网络方法的印刷体汉字识别方法[4]。目前对于印刷体汉字识别的研究工作己经趋于成熟,己有一些实用系统在市场销售。如清华文通、曙光OCR、汉王OCR等。进入90年代,国家教委基础研究与高科技司和国家“八六三”高科技计划智能计算机主题专家组为了了解我国汉字识别的水平,于1991年、1992年和1994年先后召开了三次汉字识别和汉语语音识别评比研讨会。1990年以来,在“八六三”资金的支持下,通过检查、评测以及在市场的激烈竞争中,我国的印刷体汉字识别系统的主要性能指标有了新的突破,在商品市场中逐渐完善,识别系统进入大发展的阶段。
{title}2. 研究的基本内容与方案
{title}
原始文本用扫描仪或摄像机进行光电转换输入到计算机中,经过光电转换的文本是一幅两维的点阵图像,图像可以是灰度的,也可以是二值的,现在一般都采用二值图像,即图像中所有象素点的取值非0即1,值为1的点称为前景点或黑点,为0的点称为背景点或白点。
由于目前字符识别算法仍是以每个字符为一个识别单位,因此首先要把单个字符的图像块从文本图像中分割出来,这一过程称为行字分割。一般来说,手写文本没有版面问题,不需要进行版面分析和理解,对于书写在稿纸上的文本,行字分割也很容易,只要书写比较规整,通常只要采用投影方法就能有效地解决这一问题。
单字图像块分离出来后,进入识别环节,这是整个识别系统的核心,包括预处理、特征提取和识别三个部分。一般情况下所说的手写体字符识别通常是指单字识别。 图 1文字识别的一般流程
预处理的目的是去除噪声,加强有用信息、压缩冗余信息并尽可能对手写字符产生的大小、位置和形状等方面的变化进行吸收,为特征提取做好准备。
预处理后,数据的维数依然很高。特征提取的目的是将图像信息压缩成一组维数较低的、能够反映原始图像本质的特征。一组稳定的和具有代表性的特征,是一个识别算法的核心,因此,采用不同特征的识别算法即使是采用相同的分类策略也可以认为是不同的算法。总的来说,特征可以根据提取方法和侧重点的不同分为统计特征和结构特征两大类,分别适用于统计和句法两种识别方法。
经过特征提取后,就可以进行识别(分类)了。识别就是在特征空间中用统计决策方法或句法分析方法将被识别对象归为某一类别。对于汉字识别,由于类别数巨大,故往往采用多级分类策略,以提高识别效率。输入的汉字首先经前一级或几级处理,判定它属于整个汉字集合的某一子集,然后再判定它属于该子集的某个类别或更小的子集。前面的一级或几级称为粗分类或预分类,最后一级称为细分类或识别。由于与整个汉字集合相比较,每个子集的字数要少得多,因此,采用多级分类策略可以缩短匹配时间,提高识别速度。
系统的最后一级是后处理。单字识别完成之后,系统可以利用上下文或其它方面的信息来纠正一些识别错误,以提高系统的识别率。