登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 计算机科学与技术 > 正文

OCR文字识别相关算法的研究与实现开题报告

 2021-12-14 21:54:47  

1. 研究目的与意义及国内外研究现状

随着计算机的普及,越来越多的人学习并运用计算机,很多人学习计算机就是从学习输入汉字开始的。本课题研究ocr文字识别技术的实现与发展,着重解决office文档扫描件下印刷体的识别与输入,使能够不适用键盘也能输入汉字,简便平时办公、学习方面在pdf文档方面的修改缺陷,提高工作效率:

1.文字识别是中文信息录入的快捷手段,由于汉字是非字母、非拼音化的文字,笔画复杂多样,人工键入速度缓慢且劳动强度大,计算机自动识别文字或语言方式解决了这一难题,能快速有效的将汉字输入进计算机。

2.文字识别技术是提高办公自动化水平的主要因素。办公自动化就是要借助计算机来进行文档的处理,以代替人们的日常活动

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

本课题着重实现office类文档的扫描件的印刷体的识别,研究主要围绕以下几个方面: 1.office文档的检测,充分考虑光照强度、文档模糊程度、字体识别难易程度,对此实施不同的算法。

2.office文档的识别:对文档的行和单个字的分割,使每个字与字典相比较,获取最形近的结果,在识别过程中注意每行的行距,单个字的间距。

3.office文档要进行的是汉字、英文与数字的识别,其中最复杂的是汉字的识别,英文与数字比较量较小,而汉字最基本的字典对比就有7500多个,这其中关键的是分类器的设计,目前最常用的训练器基于神经网络算法(cnn),而对目标样本的测试也是关键步骤。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 实施方案、进度安排及预期效果

(1)本课题实行方案:

在预处理阶段对待识别的图片进行处理,去除图像的背景将噪声对后续过程中文字识别的影响降到最低。由于office文档固有不变性,对其处理没有灰度化和二值化的步骤。对于有自然背景的图像,在光照角度的影响下,先去除图片带有的色彩和其他背景,此时使用灰度化、二值化和降噪来进行图像处理。在深入分析和比较了目前存在的研究方法后,使用基于加权平均法的灰度化算法和基于迭代思想的二值化算法。在预处理阶段完成后对整段文字进行字符分隔,本系统的使用的是基于垂直投影方法的分水岭算法,使文字便于识别处理。在字符切分完成后,就需要对文字进行识别,识别算法用的是基于vtd、htd字符识别的方法。

(2)本课题进度安排:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] 夏德深,傅德胜著.计算机图像处理及应用.2004年

[2] 傅德胜著.图像处理学.2002年

[3] 百度ocr文字识别企业版(api)

[4] 王行刚.文字识别的两种新方法[j].电子计算机动态.1963(04)

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图