自然场景中的文字检测文献综述
2020-04-28 20:30:19
随着计算机技术、人工智能和思维科学研究的迅速发展,图像处理技术日益向更深层次拓展,人们开始研究如何利用计算机系统来模拟人类视觉系统,按照人类视觉认知过程来解析图像和理解外部世界。自然场景图像中的文字包含了很多重要的语义信息,如路牌上的街道名字,商店招牌上的店名、广告牌上的文字、产品包装上的文字等,这些文本字符对场景视觉信息的表达具有重要价值,是描述和理解场景内容的关键线索。因此,将场景图像中的文字抽取出来,有利于场景图像的内容分析、检索,可以广泛应用于机器人视觉和盲人导航等领域,而文本检测与定位用于确定场景图像中的文本区域,是进行精确文本抽取的前提,具有重大的理论意义和广泛的应用前景。
文本检测与定位的任务是发现场景图像中文本的位置并进行精确的定位和分割出来,在国内外,现有文本检测与定位的方法大致可以分为四类:基于连通域的方法、基于边缘检测的方法、基于纹理的方法和复合方法,下面分别介绍这四类方法的代表算法。
(1)基于连通域分析的方法
基于连通域分析方法的基本思想是假设同一文本区域的字符具有相似的颜色和亮度,并且与背景区域的颜色存在较大差异的基础上,采用自底向上的方法从图像中提取连通区域,然后,利用几何约束构造启发式规则进行连通域分析,将子区域合并得到最终的文本区域。
Mariano等[1]利用Lab空间彩色聚类来进行文本检测和定位。该方法把原图像转换到 Lab 颜色空间后,将文本区域中具有相似颜色的字符像素聚集在一个点或一个区域,使得 Lab 空间中的每一个点对应于一个候选文本区域,然后,对候选文本区域进一步过滤得到最终的文本区域。该方法对Web图像、杂志图像和广告图像的文本检测效果较好,但对分辨率较低的视频图像、颜色和亮度不均匀的图像和背景复杂的图像文本检测效果较差。
蒋人杰等[2]利用文本连通分量与非文本连通分量在特征上的差异,提出了一种基于连通分量特征的自然场景图像中文本检测算法。该算法首先利用Niblack二值化方法将场景图像分解为若干连通分量,然后利用级联分类器和SVM(SupportVector Machine)组成的两层过滤机制,验证这些连通分量的文本特征。大多数非文本连通分量会被级联分类器丢弃,而 SVM 则能对第一层的过滤结果做进一步的验证,获得最终的文本区域。
Epshtein等[3]首先利用沿着边缘点梯度方向的射线对边缘图像进行笔画宽度变换,然后在笔画宽度变换图像中进行联通域分析得到一系列连通分量,接着利用文本分量笔画宽度等特性,定义验证规则,过滤不符合规则的非文本分量,最后通过布局分析和文本行聚合,将验证后的候选文本分量聚合成文本行,得到最终的文本区域。该算法考虑了字符的笔画宽度特性,对自然场景图像中的文本检测和定位效果较好。
(2)基于边缘特征的方法
基于边缘特征的方法的基本思想是利用文本区域具有丰富的边缘信息这一特点进行文本区域检测,首先采用某种边缘检测算子从原图像中检测出边缘,然后通过形态学方法将边缘连接成文本块,最后,利用一些启发式规则进行筛选,得到最终的文本区域。