自然场景中的文字检测方法与实现毕业论文
2021-03-27 17:46:00
摘 要
电子设备可以拍摄并采集到自然场景中的各种图像,自动把图像中的文字识别为可编辑的文本资料成为了一个新的探索领域。而在文本识别中首先第一步要做的就是图像中的文本定位。
本文针对自然场景中的文本检测与识别这一领域的核心的问题即自然场景中的文本定位方法开始探索,以自然场景文本为研究对象,首先整体介绍阐述了文字识别定位的流程,然后利用最大极值稳定区域、边缘检测和基于笔划宽度变换的算法,分析自然场景中文字特点,设计并基本实现了自然场景中图像的文本定位,并进行了相关的结果测试,最后阐述了该领域所面临的挑战和最新的发展趋势。
从测试结果可以看到,本文设计的文本定位系统能够相对精确地定位出在自然场景中采集的图像中的文本区域,在实际生活中具有一定的应用。
关键词:自然场景图像;文本检测;文本定位;笔划宽度
Abstract
Electronic devices can be used to shoot and collect various images in natural scenes, automatically identify the text in the image as editable text data has become a new field of exploration. And the first step in the text recognition is text positioning.
In this thesis, we focus on the text detection method in the natural scene, and the natural scene text as the research object. Firstly, the thesis introduces the process of character recognition and then uses the maximum Extreme value stable region, edge detection and stroke-based width conversion algorithm, analyze the characteristics of the characters in the natural scene, design and basically realize the text orientation of the images in the natural scene, and carry out the relevant results test, and finally elaborated the field The challenges and the latest trends.
It can be seen from the test results that the text localization system designed in this thesis can locate the text area in the image collected in the natural scene, and has some application in real life.
Key Words:natural scene image ;text detection ;text positioning ;Stroke width
目录
第一章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 2
1.3 论文研究内容及安排 3
第二章 图像中文本候选区域提取 5
2.1 最大极值稳定区域 5
2.2 边缘特征 7
2.2.1 Sobel算子 7
2.2.2 Log算子 8
2.2.3 Canny算子 10
第三章 文本区域定位 14
3.1 笔划宽度变换 14
3.2 笔划宽度变换算法 16
3.3 文本组合 17
3.3.1 连通域生成 17
3.3.2 连通域分析 18
3.3.3 文本框整合 20
3.4 结果分析 21
第四章 总结与展望 23
4.1 总结 23
4.2 展望 23
参考文献 24
致谢 25
第一章 绪论
随着人类社会科技的发展,人类学会了应用文字来表达自然中所存在的各种信息,而如何从自然中提取出各种各样的信息成为了人类新的关注点。科技的迅速发展,使人们期望能通过电子设备从采集到的丰富多彩的信息中快速找到最准确的信息。
1.1 研究背景及意义
由于可穿戴电子设备的普及,互联网和移动互联网技术的高速发展,人类已经在互联网上创造出了一个丰富的图像世界,生动地记录着现实世界的各个方面。人类的日常生活会产生大量的数据,如视频、音乐、聊天记录等。这些数据以各种不同的形式保存在互联网和数据库中,包含有大量的信息,文本是自然生活中十分重要的信息传播载体,其中包括了丰富的情景语言信息,对知识的理解和获取至关重要。
图像通过像素矩阵的形式来表现拍摄对象的形状、颜色,但想从形状,颜色中获取图像信息是一件比较困难的事情。现实生活中通常都用文字来获取图像中的关键性信息,所以从图像中获取相关的文字信息就变得十分有意义。而自动把图像中的文字定位并识别将对人类的生活产生很大的影响。
自然场景中文字检测和识别技术在某种程度上影响着科技社会和人类社会的发展。在未来的日常生活中,可以文字识别的无人驾驶汽车能够通过路上的指示牌迅速精准找到目的地;在新闻中,利用文本定位可以快速获取重要新闻事件的内容;在远程教学中,利用文本定位可以迅速找到所需要的知识点的视频片段。从实际应用来说,自然场景中文字检测和识别技术能够大力地推动相关领域的发展,并由此产生巨大的经济效益。
在现实的自然场景中,文本大多数都是任意方向排列的。即使场景中的文字水平排列,但由于种种原因,拍摄出来的图像中的字符还是有可能是倾斜的。所以由于文本分布的位置错落不一和方向的随意性,使得自然场景中图像文本的准确定位成为一个难以解决的问题。
虽然在文档的编辑中,人眼看到的字符基本上都位于同一个背景上,而在字符之间色彩通常会有一些的不同,在文档的编辑中经常看到的就是黑白两种颜色。自然场景中的图像和文档相比较就变得比较复杂。由于在文字区域附近经常有各种噪声和光照的干扰。而且标识牌、围栏、树木的纹理和形状基本上都与编辑的文字一样,使得这种检测方法下文字不能被准确获取,有时也会将与文本类似的背景错误判断为文本,从而导致虚警率增加。
自然场景中的文本定位与检测就是要从采集到的图像中精准而又迅速地检测并识别出其中所包含的文字内容,来获得更多的功能,给用户提供更好的体验。
1.2 国内外研究现状
最早的文本定位及识别所采用的技术主要就是光学字符识别(Optical Character Recognition .OCR),主要是在二值图像以及一些简单的灰度图像上进行识别[1], OCR的概念先是由德国科学家Tausheck在1929年提出,在此之后美国科学家 Handle也对文字定位识别的概念进行了补充[2]。20世纪 50 年代IBM 公司推出的 IBM1418,可以称之为第一代OCR产品。1960年日本也开始了对OCR 的研究,刚开始以研究文字的识别方法为主[3]。
由于自然场景中文本定位具有很大的难度,国内外许多学者都在自然场景图像中的文本区域定位的研究上花费了大量的时间,一些著名的大学或研究机构对文本定位也开始了深入的研究。Jung K 在一篇论文中广泛而又深刻的总结了2003年之前提出的图像中文本信息提取的各种方法,并将定位方法大致分为两种:1.基于区域的定位方法;2.基于纹理的定位方法。