印刷体汉字识别研究毕业论文

2022-07-24 10:11:59

论文总字数：19680字

摘要

印刷体汉字识别技术是一种自动化的快速录入技术，有着广泛的应用前景。

本文介绍了印刷体汉字识别的基本过程，比较具体的介绍了印刷体汉字识别的原理和预处理、特征抽取与匹配识别的过程。本文通过matlab来实现印刷体汉字的识别，预处理经过了灰度化、二值化、行字切分和归一化等过程，然后用大样本汉字的边缘图像进行训练获得模板，待识别的汉字的边缘通过与特征库中的模板逐一的进行匹配，相似度最高的就是识别结果。

实验表明，本文的方法能够完成对印刷体汉字的识别，有较高的识别率和较快的识别速度。

关键词：汉字识别预处理特征匹配边缘特征

The Research of Printed Chinese Characters Recognition Technology

Abstract

Print Chinese character recognition technology is a kind of high speed and automatic means of information entry, will be the important function of the interface in the future, also can be used as office automation, the press and publishing, in areas such as machine translation ideal input methods, has a broad application prospect. The ultimate goal of printed Chinese character recognition is to make Chinese information can be more natural, more easy to enter the computer, for further processing. In real life, a lot of letters, newspapers, magazines, content need to input the computer, this is the problem of printed Chinese character recognition.

This paper gives a detailed description of the basic process of printed Chinese character recognition; this paper discusses the principle of printed Chinese character recognition and preprocessing, feature extraction and feature matching process. And emphatically analyzes the statistical pattern recognition method, structural pattern recognition methods. This study implemented by matlab, the pretreatment line after gray, binarization, character segmentation and normalization process, and then to extract the edge of the template for storage, for recognition of Chinese character images with features in the library template by matrix similarity matching, matching degree is the highest recognition results.

Experiments show that the method can accomplish the printed Chinese character recognition, a higher recognition rate and fast recognition speed.

Key Words: Chinese character recognition; pretreatment; feature correspondence; edge features

摘要 I

Abstract II

第一章绪论 1

1.1 课题背景 1

1.2 印刷体汉字识别的国内外研究现状 1

1.3 本文的主要工作 2

第二章印刷体汉字识别系统概述 3

2.1 印刷体汉字识别系统的基本构成 3

2.2 印刷体汉字识别的相关概念 4

2.2.1图像的预处理 4

2.2.2汉字的特征提取 5

2.2.3特征匹配和识别 5

2.3 本章小结 5

第三章印刷体汉字识别的预处理 6

3.1 灰度化 6

3.2 二值化 7

3.2.1 二值化方法的概述 8

3.2.2 本文采用的二值化方法 8

3.2.3 二值化的实现 9

3.3 行字切割 10

3.4 归一化 13

第四章特征提取与识别 14

4.1 印刷体汉字的特征提取 14

4.1.1 印刷体汉字的特征 14

4.1.2 特征提取方法概述 14

4.1.3 本文的特征和提取方法 15

4.1.5 特征提取的实现 17

4.2 特征库的建立与更新 18

4.2.1 特征库的建立 18

4.2.2 特征库的更新 19

4.3 识别 20

4.3.1 特征匹配的常用方法 21

4.3.2 本文的特征匹配 22

第五章结果与分析 25

5.1 实验环境 25

5.2 测试过程与结果 25

5.3 分析 27

第六章总结与展望 28

6.1 总结 28

6.2 展望 28

参考文献 30

致谢 32

第一章绪论

1.1 课题背景

汉字是世界上使用数量最庞大的字样，经过数千年的传承与发展，汉字系统愈发完善。在进入信息化时代的今天，印刷材料爆发性增长，其所蕴含的信息量更是无比庞大，因为从人类的阅读习惯上来讲，印刷体材料更能让人接受。然而，随着信息时代的到来，人们越来越依赖于使用电子产品来记录日常生活和学习知识，人们获取信息的途径发生了巨大改变。所以，我国如今面临的信息处理的关键问题是怎样快捷并且智能的将印刷体汉字读取到PC机，这也与计算机技术在我国发展的速度和程度相关。从更深层次来讲，印刷体汉字的快速识别输入是当今社会弘扬和传承中华民族悠久历史的关键。对于传统的人工键入，在不考虑现如今劳动成本日益增长的前提下，其效率也是极其低下的，根本无法跟上信息化时代的脚步。因此是否可以有一种便捷、精准并且智能的识别技术来帮助人们解决上面繁琐的问题，在这种背景驱动下，研究出了印刷体汉字识别技术^[1]。这个便捷、精准的智能处理方法将在一定意义上促进我国智能化的进展。

汉字识别所涉及到的领域众多包括模式识别和人工智能识别等，是一个由许多学科组合而成的课题。从人类科学进步的角度上来讲，各学科给印刷体汉字识别的研究提供了足够的工具，而各个科学领域的结合不仅加强了人们对原有知识的应用，也开拓创新了思路。而在我国，汉字使用最频繁也最悠久，那么，倘若在汉字识别方面可以达到比较领先的位置，也是民族科技实力展现的核心部分。汉字作为延续最为久远的文字，记录了中华文明的博大，见证了中国五千年的兴衰，因此印刷体汉字识别的研究即是作为对历史文化的传承也是为了在当代能够在信息化时代弘扬对中国的文化。

1.2 印刷体汉字识别的国内外研究现状

文字识别技术有很多研究方向，其中印刷体汉字识别是很主流的一种，利用机器识别字符。字符技术识别发展久远，最早能够追溯到20世纪初著名的奥地利科学家陶斯科使用的光学模板识别技术。其原理是利用10个模板对应0-9，把待识别的数字投影到模板上，根据模板的透光性来判断待识别的数字，当透过的光最小时，其模板就对应了该数字。随着时间推移，计算机诞生了，50年代末出现了与计算机相关的识别技术。一九六六年，IBM的在该技术上取得突破性进展，在他们发表的论文中阐述了通过模板匹配技术进行的数千个汉字识别的研究，成果喜人。另外，日本的富士、三洋、松下等也研发了其识别系统，但因为价格及制造工艺水平等种种原因，没有推广开来。而80年代，软件行业的兴起，给印刷体汉字识别的研究注入了新的活力，用软件在通用微机上进行识别成为了主流的技术发张和市场走向。

请支付后下载全文，论文总字数：19680字

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码

印刷体汉字识别研究毕业论文

Abstract

第一章绪论

1.1 课题背景

1.2 印刷体汉字识别的国内外研究现状

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

印刷体汉字识别研究毕业论文

Abstract

第一章 绪论

1.1 课题背景

1.2 印刷体汉字识别的国内外研究现状

您可能感兴趣的文章

最新文档

推荐栏目

第一章绪论