基于CTPN的自然场景文字识别研究毕业论文
2021-04-05 00:46:28
摘 要
自然场景下的图像包含了大量的视觉信息,其中包含语义的文字信息更为复杂,并且自然场景下的图像与传统的文档图像不同,自然场景下的文字存在更多的不可控因素,如背景复杂、文字扭曲、模糊等,对其检测和识别也就提出了更多的挑战。目前针对场景文本检测的方法也有了很多,如YOLO、SSD、Faster RCNN等,本文研究了一种基于CTPN(Connectionist Text Proposal Network)的文字识别方法,这是一种基于文本行的文本检测方法,对于横向或稍倾斜的文本都有着很好的检测效果。这种模型用一个个小的文本框检测图像中的文本,最后将属于同一文本的文本框进行连接,完成文本检测。它通过预先准备好的带有标签的数据集进行训练模型,能准确地在自然图像中定位文本行,然后对检测到的文本框中的文字进行识别。对于检测到的文本采用DenseNet CTC对其进行识别,DenseNet是一种在Resnet的基础上进行改进的模型,其结构虽然较为简单,但是能对前面所有层输出的特征进行重复利用,在文字识别方面有着不错的效果。在本文研究中,采用了不同数据集和不同场景的图片进行了对比分析,并阐述了所使用方法的一些不足和对未来研究方向的一些期望。
关键词:自然场;CTPN;文字检测;文字识别
Abstract
Images in natural scenes contain a lot of visual information, including semantic text information, which is more complex, and images in natural scenes are different from traditional document images. There are more uncontrollable factors in natural scenes, such as complex background, text distortion, blurring, etc., which pose more challenges to its detection and recognition. At present, there are many methods for scene text detection, such as YOLO, SSD, Faster RCNN, etc. This paper proposes a text recognition method based on CTPN (Connectionist Text Proposal Network), which is a text line-based text detection method, and has a good recognition effect for horizontal or slightly inclined text. This model uses a small text box to detect the text in the image. Finally, the text box belonging to the same text is connected to complete the text detection. It can accurately locate text lines in natural images by training model with pre-prepared lable data sets, and then recognize the text in the detected text box. DenseNet CTC is an improved model based on Resnet. Although its structure is relatively simple, it can reuse the features of all the previous layers and has a good effect in text recognition. In this paper, different data sets and pictures of different scenarios are used for comparative analysis, and some shortcomings of the methods used and some expectations for future research directions are expounded.
Keywords:Natural scene;CTPN;Text detection;Character recognition
目 录
目 录 1
第1章 绪论 1
1.1 研究背景及意义 1
1.2 国内外发展现状 1
1.3 场景识别仍存在的问题 2
1.4 本文结构 2
第2章 图像中的文本定位 4
2.1 文本检测和识别模型 4
2.1.1 场景文本训练数据集 4
2.1.2 常用文本检测模型 5
2.2 CTPN简述 5
2.3 CTPN的结构 7
2.4 CTPN文本检测效果 9
2.5 小结 10
第3章 文字识别介绍 11
3.1 DenseNet网络简介 11
3.2 CTC简介 14
3.3 整体模型 14
3.4 小结 16
第4章 实验部分 17
4.1 训练数据集 17
4.2 实验过程 18
4.2.1 实验环境 18
4.2.2 实验配置 18
4.3 实验分析 19
4.3.1 文本检测结果分析 19
4.3.2 文字识别结果分析 20
4.4 小结 24
第5章 总结与展望 25
5.1 总结 25
5.2 展望 25
参考文献 26
致 谢 28
绪论
研究背景及意义
随着智能设备的普及,自然场景下的文字识别受到了越来越多人的关注,它可以使人们通过计算机更快速的获取场景图像中的信息,从而减少人工成本[1]。例如,可以通过商品包装上的文字快速获取商品信息;通过路口处的摄像头拍摄到违规车辆的车牌号码,获取车辆信息 ;通过路边的的指示牌,获取当前所在位置信息等。此外,在工业方面,对场景文字的识别有着很大需求。文字识别在虚拟现实、人机交互、图像搜索、无人驾驶技术、机器人等方面同样也扮演着重要角色。文字作为一种复杂的视觉信息[2],可以与图像中的其他信息互补,通过分析图像中的文字所蕴含的语义,再与图中的背景、物体、颜色等结合,能够更加有效地分析场景信息,从实际应用的角度方面考虑,对场景文字识别的研究对其他相关领域也有着十分重要的推动作用。
自然场景是人们接触最多的环境,它包含了大量的视觉信息,包括图形、背景、位置、文字等,而具备上下文语义信息的文字信息又更为复杂。传统图像文字识别多面向拥有清晰背景、文字规范、分辨率较高的印刷文档图像,但在自然场景下,拍摄条件充满了不确定性,所获得的的图片可能拥有较低的分辨率、扭曲的文字、复杂的背景、较强的光照等[3][4],更为重要的是,文本的背景一般也会随着拍摄角度、位置等变化而变化,这时,传统图像文字识别就无法取得好的效果,识别率就会急剧下降,这就使得场景文本的识别变得充满了挑战。寻找一个简单、有效的文字识别方法就成了一个值得不断探索、研究的问题。
国内外发展现状
针对自然场景中的文字识别研究已有很多,主要可分为基于字符的识别和基于整个区域的识别,但无论哪种方法,场景中文本的检测与定位都是首要任务。