登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

Windows系统桌面截屏图像的版面分析

 2023-02-21 09:09:24  

论文总字数:14976字

摘 要

第一章 引 言 6

1.1 研究背景 6

1.2 研究现状 6

1.2.1版面分析 6

1.2.2版面分割现状 6

1.2.3区域类型分析现状 7

1.3主要工作概述 8

第二章 matlab介绍 8

2.1 matlab图像处理介绍 9

第三章 图像的预处理 9

3.1 图像的灰度转化 10

3.2图像的噪声和二值化 10

3.2.1图像的噪声 10

3.2.2图像的二值化 11

第四章 文档图像版面分析 12

4.1图像的平滑 12

4.1.1自适应距离的游程平滑 12

4.2连通域标记 14

4. 3文档图像版面分割 15

4.4图文特征分析 16

4.4.1行列特征 16

4. 4. 2灰度特征 16

4.4.3 色彩特征 16

第五章 代码实现 17

5.1 流程图 18

5.2 部分代码实现 18

5.3 测试版面分析.................................................................................................................19

第六章 总结 26

致谢................................................................................................................................................27

参考文献........................................................................................................................................28

Windows系统桌面截屏图像的版面分析

摘 要

随着pc平台的发展和普及,人们越来越习惯利用计算机进行办公查阅。图像作为信息处理的一个重要手段,因其包含信息量大,内容丰富而被人们广泛引用。因此对于图像的处理也成为信息处理的主要工作。图像处理主要包括了对图像的版面分析对图像进行分割。图像的版面分析就是利用图像的统计模式识别及特征识别对图像的区域进行区分出文本图片区域。本文对于基于windows下的截屏软件获取的图像进行版面分析,有效的帮助人们进行信息处理。

关键词:版面分割;版面分析;图像处理。

Windows desktop screen capture image layout analysis

           Abstract

With the development and popularization of pc platform, people are increasingly accustomed to the use of office computers Now. Image as an important means of information processing, because it contains large amount of information, rich content and is widely cited. Therefore, the image processing has become the main information processing. Image processing includes image for layout analysis of image segmentation. Image layout analysis is the use of statistical pattern recognition and image recognition feature of the area of the image to distinguish the text image area. In this paper, the software based on screenshots under windows acquired image layout analysis, and effective to help people process information.

Keywords: page segmentation; layout analysis; image processing.

第一章 引 言

本文对于基于windows下的截屏软件获取的图像进行版面分析,有效的帮助人们进行信息处理。

1.1 研究背景

随着科技的发展,人们越来越依赖与计算机进行一系列操作,如:网上购物,看视频等等,当我们看到关键点是,往往会利用计算机系统进行截屏保存,但截屏得到的大多是一张彩色图像,我们人眼来看很容易就能区分出那些信息是我们需要的那些不要,但是就计算机来说,他所接受到的仅仅只是一堆信息的二位数组,他无法为我们刷选出那些是我们需要的而那些有时我们所不需要的。这样的话就需要我们编译一些算法来对图像进行一些处理。由此,就需要我们对于图像进行以下处理,将图像进行区分分别出那一块是正文那边是表格那一边又是图片。我们通过对于图像处理的研究,提出了一种基于windows平台的截屏图像的版面分割技术来对图像信息进行处理。

1.2 研究现状

1.2.1版面分析

版面分析就是对于一个图像,他的各个区域包括文本区,表格区等等各个区域进行识别和分割。从处理方法来看,现有的版面分析方法大体可分为以下三类:

第一种方法就是自顶向下,根据字面意思来理解就是从他的全局来入手,逐步从页面中将各个区域分割出来这个方法比较的简单但是缺点也很明显就是对于那些复杂的图像难以分割。

第二种方法叫自底向上的方法顾名思义就是从局部入手,将一个个小型区域合并成较大的区域。相比而言这个方法适合复杂的图像,但是这个方法的时间复杂度较大。第三种方法就是混合型的,就是将两种方法相结合。

1.2.2版面分割现状

版面分割作为版面处理甚至图像处理的基础,是目前研究较为广泛的一个领域,其目的是为了将一副完整的图像按照人为需要分割为若干独立的小区域,以便为后续分析和处理做准备。图像处理的效果如何,很大一部分因素取决于版面分割算法的好坏。目前版面分割的方法主要有连通域法,游程平滑法,投影法以及其他一些使用频率较低的方法,诸如基于分割线提取的版面分割等。基于连通域的版面分割方法是通过对图像连通域的分析,获取到所有连通域后,再根据各个连通域间的空隙,行间距,字间距,笔画间距等作为适配参数,将本不应连通的部分扩大成为一个较大的连通区域,部分文献中还提到需要对连通区域进行形态学膨胀,以使分割的连通域相接,形成较大的连通域,通过不断的连通,膨胀,再连通,最后得到版面区域分割的结果。其方法优点是可以较为精确的获取到每个独立的区域,并且由于最初获取了所有连通域,为后续版面分析和文字识别提供了帮助。并且连通域可以基于灰度图完成,避免了二值化过程中可能产生的图像信息缺失问题。缺点是由于需要多次获取连通域,该方法消耗的资源较多,耗时较长,即使是仅对二值图像进行所有连通域标记,消耗的时间也是比较长的。游程平滑算法版面分割的过程是将原始图像二值化后,分别从水平方向和垂直方向扫描图像,通过对特定图像习惯性或经验性的分析,设定平滑参数,使任何小于该参数的空白点都变为黑色点,达到填充空隙的目的。通过垂直和水平两个方向的填充,得到不同类型区域,以便进行后续分析与处理。对于该方法,关键之处在于阈值参数的选取,若选取的参数过大,将导致本不应属于同一区域的内容被归属到同一个区域;若参数过小,又容易将本该属于同一区域的内容被分割开,甚至完全起不到填充空隙的目的,导致分割失败。该方法的优点是较连通域方法消耗的时间较少,采用该方法的文献较多,变式也较多,可以根据不同情况采取不同的优化方法;缺点是对于页面倾斜,或因语言,字号,字体不同导致的间距不一且差别较大的图像,处理效果不是很好。基于分割线的提取算法是首先将版面上所有空白区域都标记为分割线,与此同时计算出分割线的长度均值,将小于此长度的线去掉,即消除了字符间,笔画间的多余分割线,随后再去掉过细的分割线和过粗的分割线,从而将版面分割为各自独立的区域。该方法的优点是可以快速获取分割线,并且甚至可以直接基于彩色图片进行分割处理,省去了灰度,二值等步骤。缺点是对于倾斜的,留白较多的图片,由于其平均值较大,分割效果不好。

1.2.3区域类型分析现状

我们进行区域类型分析就是把图像进行分割并且判断出他所处的不同的类型。对于截屏图像而言,就是需要我们能够区分出那一片区域是文本区,那一片图片区,那一部分又是菜单区等。文本区根据具体需要又要区分出标题正文等。图片区又可区分出表格,图片等。目前主要方法分为基于统计和基于特征两种方法。

  1. 统计模式识别

所谓模式识别就是我们来利用机器来帮助人们识别一些事物。利用机器来帮助识别可以省去人的劳动力同时识别的能力也有很大的提高。所谓模式识别就是将对象的某些特征变量构成一个模式空间,划分出每一个模式的类别,利用计算机来识别个元素的信息对其进行区分,做出最佳的决策。

  1. 基于特征识别

基于特征的识别就是区分该区域相比于其他的区域所具备的特殊的特征,比如比较图片中的文本区域和图片区域。我们知道的文本区通常都是黑色,颜色较为单一而图片区域一张图片正常都是色彩斑斓而且比较复杂不像文本区域那样排列整齐。这其实就是利用了图像的灰度特征来识别图像来划分区域的。

剩余内容已隐藏,请支付后下载全文,论文总字数:14976字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图