图像中文本定位算法研究毕业论文
2021-03-22 23:03:31
摘 要
文字是人类获得知识,认识世界的重要载体。而图像中的文本更是图像内容的一个重要体现,它或是直接展现图像信息,或是描述图像的内容,如果这些文本能够自动的被检测、提取、识别出来,那么对于自动理解图像中更高层的语义就非常有价值了。
图像中的文本定位已经成为数字图像处理领域中的热点和难点,专家和学者都曾提出过文本定位的算法,且具有一些成果,但由于文本在图像中的复杂性以及图像自身的复杂性,目前没有一个算法能够普遍适用于任何场景并能够得到满意的实验结果。本文分析和比较了计算机视觉中常用的文本定位算法,并实现了一种基于边缘检测的图像文本定位算法。该算法先对输入图像进行预处理,再用canny算子提取图像边缘信息,然后进行边缘锐化操作,再用形态学处理的方法将图像边缘连接成块,最后通过对连通域的分析和甄别标记出文本区域。
本文采用街景图像作为数据集进行实验,结果表明,采用本文的文本定位算法可以较精确的定位出文本区域的位置,具有一定的实际意义和实用价值。
关键字:文本定位;边缘检测;连通域分析
Abstract
The text is an important carrier of human knowledge and knowledge of the world. And the text in the image is an important embodiment of the image content, it is either directly show the image information, or describe the contents of the image, if the text can be automatically detected, extracted, identified, then the automatic understanding of the image more high-level semantics is very valuable.
The text positioning in the image has become the hot and difficult in the field of digital image processing. Experts and scholars have put forward the algorithm of text localization, and have some achievements, but because of the complexity of the text in the image and the complexity of the image itself, there is currently no algorithm to be universally applicable to any scene and to be satisfied with the experimental results. This paper analyzes and compares the text localization algorithms commonly used in computer vision, and implements an image text localization algorithm based on edge detection. The algorithm preprocesses the input image, extracts the edge information of the image with the canny operator, then performs the edge sharpening operation, and then uses the morphological method to connect the image edge into blocks. Finally, through the analysis and screening of the connected domain mark the text area.
In this paper, the street image is used as the data set to carry on the experiment. The result shows that the text localization algorithm can locate the position of the text region more accurately and has certain practical significance and practical value.
Keywords: text location; edge detection; Connectivity domain analysis
目 录
摘 要 I
第1章 绪论 1
1.1研究的背景及意义 1
1.2国内外研究现状 1
1.3研究内容及组织安排 2
第2章 文本定位算法综述 3
2.1引言 3
2.2图像中文本的特征 3
2.3文本定位算法的分类综述 4
2.3.1基于边缘分析的方法 4
2.3.2基于纹理分析的方法 4
2.3.3基于连通分量分析的方法 5
第3章 基于边缘分析的文本区域定位方法 6
3.1引言 6
3.2图像的预处理 6
3.3图像边缘提取 7
3.3.1常用的边缘检测算子 7
3.3.2图像锐化 11
3.2.3去除孤立噪音点 12
3.4图像的形态学处理 13
3.4.1膨胀 14
3.4.2腐蚀 14
3.4.3开运算 15
3.4.4闭运算 15
3.4.5数学的形态学处理 16
3.5连通分量分析与鉴别 17
3.5.1连通区域的标记 17
3.5.2连通区域规则化 18
3.5.3连通区域的过滤 18
3.6文本区域的提取 19
第4章 总结与展望 21
4.1总结 21
4.2展望 21
参考文献 22
致谢 23
第1章 绪论
1.1研究的背景及意义
二十一世纪是计算机科学和多媒体技术蓬勃发展的时代,科技的不断进步为人们的生活带来新的体验和便利。随着计算机视觉技术不断的更新和变革,越来越多的信息以图像的形式进行存储,人们每天需要处理的图像信息是海量的,而计算机对图像信息的加工处理是拥有一个极为繁杂的流程,存在着很大的难度。
图像中的文本是理解图像的重要部分,它可以帮助人们理解图像内容,也可以直接显示图像的信息,而且文本广泛存在我们日常的生活中,比如街景图像中的文本可以知道商店的名称等重要信息;路标中的文本显示的是道路情况的标志。人们对于图像中文本的获取越来越渴望,如果仅靠人工进行识别不仅费时费力而且难免会有主观上的偏差,准确性也不高。这时就需要一种能够自动实现文本定位的算法,但文本定位由于受到文字的大小、字体、风格、排列方式等内在因素和环境等外在因素的影响,这就使得要在图像中的定位文本是一个非常困难的过程,充满挑战。
由此可见,鉴于图像的复杂性和多样性,构造出一个合理的文本定位的算法,不仅要从背景非常复杂的图像中快速而精确的定位出文本区域,还要保证字符的查全率,这已经成为图像处理领域中不可避免的一个研究方向。在人们的日常生活中,文本定位不仅对人们理解图像内容有着非常重要的作用,而且它的实际应用也越来越广泛,在图像视觉、图像检索、人工智能等领域具有广阔的应用空间和发展前景。因此对于图像中文本定位算法的研究是非常具有实际意义和实用价值的。
1.2国内外研究现状
在数字图像处理的这个领域,国内外大大小小的机构和成千上万的学者对文本定位算法的研究从未停息,但由于各种各样的原因使得从背景非常复杂的图像中定位出文本成为一项极具艰难和富有挑战性的研究课题。从1995年开始真正意义上的研究到现在,投入到该领域的研究机构和人员有很多,并且取得了一些实质性的成果。