基于纹理特征的文本检测方法与实现开题报告
2020-04-13 16:06:18
1. 研究目的与意义(文献综述)
现在,随着各种便携式摄像设备的普及(如:数码相机、智能手机、监控摄像头等),人们的阅读面更加的广泛,从以前的文字,到现在的图片,视频,人类使用这些设备从图片、视频中获得越来越多的信息。相应地,由这些设备所产生的图像视频数据呈现爆炸式增长的趋势。图像/视频数据中包含了各种自然场景内容,其中相当一部分图像/视频中包含了重要的文字信息,比如:车牌号码、商品名称、路牌、字幕、建筑物名称、图像/视频内容简介等。如何准确的抽取图片、视频中有用的信息是非常有意义的。基于文字具有高度的概括性和抽象的描述能力,自然场景文字检测在基于内容的图像视频检索智能交通、智能翻译、移动导盲,、智能机器人以及视频内容分析等领域具有重要的应用。近年来,自然场景文字检测己成为计算机视觉、模式识别、文档分析与识别等领域的一个研宄热点,具有广泛的应用前景与经济价值,从而受到了国内外研究者的广泛关注。针对自然场景文字检测问题,目前已提出了大量行之有效的解决办法,相应的研究成果已广泛发表在国际权威会议及期刊上。此外,一些国际顶级会议己将自然场景文字检测列为重要主题之一,比如cvpr,iccv,eccv,accv等。特别地,为了更好地跟踪及推动自然场景文字检测技术的研宄发展,自2003年以来,文档分析与识别国际会议(international conference on document analysis and recognition, icdar)定期组织自然场景文字检测与识别竞赛(scene text detection and robust reading),并对该领域研究现状、发展趋势进行了分析与评价。
自然场景中的文本检测主要需要解决三个问题: (1)场景文字的多变性;(2)图片背景的多变性;(3)背景与文本的相似性。为了解决以上问题,许多学者也提出了相应的解决方法。目前文本检测方法主要有:(1)基于区域的方法;(2)基于相连成分的方法。比如有通过一个adaboost分类算法来检测出图像中的文本,该方法不能处理多方向问题,且检测效率较低;还有基于笔画宽度swt的方法,可用于多语言、多方向文本检测,但是不能检测出亮度太高的文字、曲线文本、透明背景文字以及较为模糊的文字;再有一种基于边界的文本检测方法,通过加强图像中的边界并过滤掉不连续的噪声来得到文本,该方法无法检测单个字母、非横向。多种颜色或者多语言文本;文献[4]提出看基于最大稳定极值区域mser的文本检测算法,mser算法对于尺度和光照是健壮的,但是它的缺点在于构造的候选集大部分是重复的,需要进一步对mser进行剪枝,而部分字母会在剪枝过程中被删除,由此造成最终文本检测效率的降低。
本文对上述基于mser的文本检测算法进行改进,为了有效地删除mser中的非字母候选,更好地描述候选字母的几何特征,又由于经过聚类得到的候选文本为一组字母的排列,在水平和垂直方向上呈现一定的分布规则,而非文本则不具有相似纹理。因此,本文在文本分类器中引入了共生纹理特征,以熵、相关性等特征值来描述纹理的特性来删除非文本。
2. 研究的基本内容与方案
自然场景中的文本检测,是从文本与非文本两类区域中,根据文本块所呈现的稳定特征进行判断,如自然场景图像中字符的结构特征、演策特征、空间特征等,检测出文本区域,找出其所在图像中的位置,因此检测文本区域的关键就是依据有效的字符特征,而一般的图像并不能直接从其中提取特征,还需要对图片进行一系列的处理,去掉干扰的信息和噪声。对于图像而言,图像分为文本区域和非文本区域,需要对图像进行分割,生成候选区域,而自然场景中颜色变化的规律性以及像素的规律排列,使得基于纹理的文本检测成为了可能。
在基于纹理特征的文本检测方法中,首先提取文本候选区域的纹理特征,然后将纹理特征输入到训练好的分类器中进行识别处理。 其主要方法是先将整幅图像分割成互不重叠的子图,然后通过小波变化、gabor滤波等方法获得子图中的纹理特征,接着通过分类器对每个子图进行文本区域或者非文本区域的筛选。在处理的过程中常常会使用金字塔或者小波分解的方法以检测自然场景图像中大小各异的字符,最后对处理后所或者文本区域融合到原始图像中。基于纹理的文本检测是通过小波变换进行检测的,接下来通过纹理分析来进行文本定位。方法流程是
1.掌握各种常用预处理方法。实现并进行测试实验,然后相互比较,比较不同细化方法所取得的效果,从中选出最为合适的方法。
3. 研究计划与安排
1-3周 查阅中、英文资料,在老师的指导下完成开题报告,完成不少于2万字符的英文翻译任务;
4-6周 学习和评测常用自然场景文本检测方法;
6-8 周 选择并实现一个最合适的文本检测方法;
9-10周 学习并了解基于纹理特征的自然场景文字检测算法;
10-16周 完成基于纹理特征的自然场景文字检测算法实现和评测总结;
17周 修改完成毕业论文,答辩。
4. 参考文献(12篇以上)
1) 王润民.自然场景文字检测方法研究[d].武汉:华中科技大学,2015
2) cunzhao shi,chunheng wang et al.. scene text detection using graph model built upon maximally stable extremal regions[j]. pattern recognition letters,2013,34(2):107-116
3) housam khalifa bashier, lau siong hoe, liew tze hui et al.. texture classification via extended local graph structure[j]. optik - international journal for light and electron optics,2016,127(2):638-643
4)戴津.基于mser的文本检测方法研究.天津师范大学,2014
5)刘丽.图像纹理特征提取方法综述.中国图象图形学报,2009