中文印刷文档的预处理毕业论文
2022-02-15 22:25:31
论文总字数:19765字
摘 要
随着信息化时代的发展,信息的交互越来越广泛,纸质信息的数字化也变的越来越受关注,中文OCR就是其中之一。识别率和识别速度在很大程度上依赖于图像质量和数据量,这正是预处理技术的作用之一。
本文针对静态中文印刷体文档的图像,设计并实现了一个预处理的方案,能够将文档图像中的汉字和孤立公式分割出来。方案的具体步骤包括图像的二值化、去噪、倾斜校正以及汉字和孤立公式的分割提取。使用最大类间方差法对文档图像进行全局二值化,平滑处理完成去噪,基于DFT变换和Hough变换的倾斜检测达到倾斜校正的目的,最后运用投影法对文本进行投影分割,完成对文档图像自动预处理。
本文以Visual Studio和opencv为主要工具,多次实验表明,本文的方法对于单幅静态印刷文档图像有较好的预处理效果。
关键字:倾斜校正 预处理 印刷文档 孤立公式
Pretreatment of Chinese Printed Documents
Abstract
With the development of information age, more and more extensive information exchange, paper information, digitalization has become more and more attention, the Chinese OCR is one of them. Recognition rate and recognition speed are largely dependent on image quality and data volume, which is one of the effects of preprocessing techniques.
In this paper, we design and implement a preprocessing scheme for the images of static Chinese print documents, which can separate the Chinese characters and isolated formulas in the document image. The specific steps of the scheme include binarization, denoising, tilt correction and segmentation extraction of Chinese characters and isolated formulas. The paper uses the maximum interclass variance method to globally binarize the document image, smoothing the denoising, and aim at the tilt correction based on the DFT transform and the Hough transform. Finally, the projection method is used to segment the text, to complete automatic preprocessing of document images.
In this paper, Visual Studio and opencv as the main tool, many experiments show that this method for a single static printed document image has a better pretreatment effect.
Key Words:Skew Angle Correction; Pretreatment; Printing of Documents; Isolated Formula
目 录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1 课题背景及意义 1
1.2 研究现状 1
1.2.1 国外研究现状 1
1.2.2 国内研究现状 2
1.3 本文的主要工作 2
1.4 本文的结构安排 3
第二章 中文印刷文档识别概述 4
2.1 中文印刷文档图像的特点 4
2.2 文档识别系统的一般构成 4
2.3 中文印刷文档处理的难点 5
第三章 文档图像预处理的实现 6
3.1 预处理过程的总体方案 6
3.2 灰度化及二值化处理 6
3.2.1 灰度化 6
3.2.2 二值化方法 6
3.2.3 二值化的实现 7
3.3 噪声的处理 8
3.3.1 平滑去噪 8
3.3.2 去噪的实现 9
3.4 倾斜校正 10
3.4.1 二维DFT变换 10
3.4.2 Hough变换检测直线 10
3.4.3 图像旋转 11
3.4.4 倾斜校正的实现 11
3.5 文本行分割 14
3.6 单个字符及孤立公式的分割 16
3.6.1 纯文本行及孤立公式行的判断 16
3.6.2 割裂公式行的合并 19
3.6.3 孤立公式的分割 20
3.6.4 单个字符的分割 21
第四章 实验结果与分析 25
4.1 输出测试显示模块设计 25
4.2 实验结果 26
4.3 分析 29
第五章 总结与展望 30
5.1 总结 30
5.2 展望 30
参考文献 32
致谢 34
第一章 绪论
1.1 课题背景及意义
随着信息时代的到来以及现代网络技术的迅速发展,人类用于获取信息和存储信息的方式发生了巨大的改变。以前,印刷体文档是人们赖以获得信息及保存信息的首要方式,如书本、杂志、期刊等[1]。由于纸质的印刷体文档存在浪费空间、不易长期储存、不便于管理和交互等许多不利因素。现在,印刷文档的数字化电子化已经成为未来发展之必然趋势。通过扫描仪器、相机等输入设备将印刷文档变成文档图像输入到计算机中,然后将图像保存到硬盘、U盘等电子存储介质上,由此人们能够简单直接的从网络或是本地电子资源中快速得到需要的信息[2]。因此将大量以纸张等为媒介的印刷文档信息转化成数字形式是一项具有重大意义的工作。从时间和空间的角度上看,在文档数字化电子化后能够非常简单的实现对文档内容的快速检索,大大的节省了时间;也可以用极小的空间来巨量的文档资料,大大的节约了空间[3]。
由于现今社会要处理的信息量可能是十分巨大的,单纯地手工处理根本无法满足人类的需要,故有必要使用自动化的方式将印刷文档进行数字化,同时这种方式相较于手工输入更加便捷。光学字符识别技术(OCR)是当前实现自动对纸质文档进行数字化电子化所使用的关键技术[4]。该技术实现了将纸质文档中的信息内容转存成能够编辑的计算机电子文档格式的功能,因此对OCR的研究是具有非常重要的学术价值和现实意义。
1.2 研究现状
1.2.1 国外研究现状
OCR识别最早起源于欧洲,1929年奥地利科学家Gustav Tauschek在德国获得了一项有关OCR的专利,尔后美国科学家亨德尔也想到了使用光学字符识别技术对文字进行识别[5,6]。为了人们能够更加有效率地处理日益增加的报纸、期刊杂志和文件档案等资料,欧美等西方国家从上个世纪五十年代就已经开始了对西方文字OCR技术应用的研究,用于替代手动输入[7]。直到上个世纪末,西方文字OCR软件开始趋于成熟。而在上世纪七十年代初,与我国同在亚洲的日本,就有学者开始了对中文汉字识别的研究,并做了大量的工作。
1.2.2 国内研究现状
在我国,对OCR技术的研究起步较晚。到上世纪七十年代,国内学者门才开始研究英语字母、数字和符号的识别问题,汉字识别的研究则开始于七十年代末。直至1986年以后,国家863计划信息领域课题联合了清华大学、北京信息工程学院、沈阳自动化所这三家单位共同对中文OCR软件进行研发工作,我国的中文OCR研究终于取得了巨大进展,自此不少国内公司单位都推出了自己的中文OCR产品。
一般来说,国内OCR发展过程大概能够分成三阶段,第一阶段是对OCR算法和方案的探索;第二阶段我国OCR中文识别软件从实验室走出,应用于实际;第三阶段主要侧重于印刷体汉字的识别和系统性能的提高,包括提高识别率和中英双语混合的鲁棒性。
请支付后下载全文,论文总字数:19765字