基于深度学习实现手写体文本的识别文献综述
2020-04-15 15:42:55
深度学习(Deep Learning)是一种基于多个隐含的深层次网络结构,主要用来处理目前机器学习领域的诸如图像检索、图像识别等一些热门问题。深度学习是机器学习中一种基于对数据进行表征学习的方法,其本质是通过构建多个隐含的神经网络来训练样本数据,从而自主学习样本的基本特征。这样可以有效地抹去以往进行人工提取的步骤。目前,大部分的深度学习技术已经可以解决识别手写体数字字符的问题,但是汉字相对于英文字母和阿拉伯数字而言,笔画较为复杂,而且每个人的书写风格和习惯不同也导致了其种类繁杂。因此对于手写体汉字识别一直是机器学习中较为热门的研究课题。
尽管生活在21世纪,但是依然有很多的诸如学校笔记、医生笔记和历史文档等日常文件都是手写的。那么,将手写文档归档就至关重要,但通常仅限于存储文档的高分辨率图像。由于文件中的文本信息难以识别,因此人们会手动存储手写体文本。然而手动存储需耗费大量的人力物力和财力,因此,有大量的努力开发自动方法来转录手写体文本。如果能通过手写体识别技术实现信息的自动录入,无疑大大有利于解决传统的人工处理方式中存在的工作量大、成本高、效率低、时效性差等问题。
七十年代初,Parks等介绍了一种抽取拓扑特征的特征抽取法以及多级结构链接的识别方法。这个时期的OCR系统的主要特点是能够识别比较工整的手写体字符。一个著名的系统是IBM1287,它利用了数字技术和模拟技术实现了这一功能。八十年代以后,随着个人计算机的出现,CCD平板式扫描仪的商品化,字符识别技术得到了蓬勃发展。许多研究者将人工神经网络、小波变换、分形、模糊理论、支持向量机(SVM)等新技术及研究手段引入到OCR技术的研究中并取得了不错的成果。
在我国,最早的手写体字符识别系统起源于七十年代,胡启恒院士等科技工作者于1974年开始研制手字体数字识别系统,最终成功地应用于邮局的信件自动分拣系统中。七十年代末,复旦大学成功研制出了我国第一台印刷体字符识别机,该机可识别西门子打字机打印的字符。与此同时,中国科学院自动化研究所也开展了手写数字识别的研究工作,研制了国内第一台邮政编码的识别样机。
本选题旨在深度学习的理论基础上,使用TensorFlow的机器学习框架以及融合attention机制的Encoder-Decoder模型,实现对包括科学家实验日志、医生笔记以及历史文档在内的多种手写体文本的识别与提取。
2. 研究的基本内容与方案
{title}
基本内容:基于深度学习理论,使用融合attention机制的Encoder-Decoder模型,实现对手写体文本的识别与提取。
目标:可以对手写体文本进行识别并以电子文本的形式保存。
拟采用的技术方案及措施:
(1)使用机器学习框架TensorFlow进行开发;