基于全卷积网络的文档图像二值化算法研究开题报告
2020-04-10 16:02:17
1. 研究目的与意义(文献综述)
图像二值化(image binarization)就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中,二值图像占有非常重要的地位。图像二值化的目的是使图像中数据量大为减少,最大限度的将图象中感兴趣的部分保留下来,从而能凸显出目标的轮廓。在很多情况下,也是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。这个看似简单的问题,在过去的四十年里受到国内外学者的广泛关注,产生了数以百计的方法,但没有一个现有方法对各种各样的图像都能得到令人满意的结果。在这些庞大的分类方法中,较为传统的基于直方图的二值算法占绝大多数,这类方法依赖于阈值的选取,所有灰度大于或等于阈值的像素被判定为属于特定物体,其灰度值为255表示,否则这些像素点被排除在物体区域以外,灰度值为0,表示背景或者例外的物体区域。大致可以分为这样几类方法:基于点的全局阈值法、基于区域的全局阈值方法、局部阈值方法和多阈值法。
近几年,图像二值化仍然是一个值得深入研究的问题,尤其是对于复杂的图像噪音,例如复杂的污渍、褪色的墨水、页面渗墨、甚至不均匀的光照。这一点从国际文档分析与识别会议(icdar)举办的文档图像二值化竞赛(dibco)的流行程度中可见一斑。同时,也涌现出了许多新的算法,这些算法不基于直方图,而是采用了svm、随机森林、聚类、神经网络,甚至深度学习。
目前基于直方图的二值化算法已经比较成熟,但是对于一些复杂的噪音效果仍然不理想。因此,许多基于分类的二值化方法被纷纷提出。现在比较流行的研究方向之一是利用卷积神经网络。思路是将图像二值化看作是一个像素级的分类问题,使用深度卷积神经网络(例如fcn、dsn),将每一个像素标记为背景/前景。卷积神经网络相比基于直方图的阈值法有许多优点:1.可以接受任意尺寸的输入,通过融合不同比例的下采样特征,取得更好的训练效果 2.传统的方法缺点是在计算阈值时忽略了形状,即这个阈值对于形状的变换是不变的。相比之下,卷积神经网络可以从训练数据中发掘出像素的空间排列特征。
2. 研究的基本内容与方案
本毕业设计研究的基本内容是如何通过机器学习的方法对含噪音的文档图像进行二值化,从而凸显感兴趣的目标,减少数据量,方便后序的图像处理。本次毕业设计的具体目标是,对于折痕、脚印、褪色的墨水、页面渗墨、不均匀的光照等噪音进行降噪,至少应该达到肉眼能分辨的程度,争取提高模型的泛化能力和准确率。
在具体毕业设计进行过程中,我打算按照以下流程进行相关知识的学习和毕业设计的实施。
(1)python编程能力的强化:如今python已经成为机器学习方向的主流语言,具有丰富的机器学习库和资源,所以提升自己的python编程能力是很有必要的。
3. 研究计划与安排
(1)2018年2月26日到2018年3月16日:python编程能力的强化和keras神经网络库的学习。
(2)2018年3月17号到2018年3月23日:学习经典的深度学习模型,并动手实现。
(3)2018年3月24日到2018年3月27日:搭建初步模型,验证模型的有效性。
4. 参考文献(12篇以上)
[1] 段锁林, 朱方, 严翔. 多窗口图像二值化算法研究[j]. 计算机工程与应用, 2017, 53(17):212-217.
[2] 张万绪, 孟虹岐, 吴长忠,等. 弱光背景下文本图像二值化提取算法[j]. 西北大学学报:自然科学版, 2017, 47(2):191-196.
[3] 冯炎. 基于背景估计和对比度补偿的退化古籍图像二值化算法[j]. 科学技术与工程, 2015, 15(34):105-109.