中文印刷文档的预处理任务书
2020-06-02 19:48:37
1. 毕业设计(论文)的内容和要求
随着电脑与网络技术的迅速发展,人们越来越习惯于将文档材料转换成具有数据量小、信息量大等特点的电子文档,这一转换过程的关键在于如何快速地将信息输入计算机,机器自动识别技术为此提供了有力的支持。
自动识别输入分为语音识别和光学字符识别(ocr)。
光学字符识别通过成像设备将待识别纸质文档以图像的格式保存起来,然后通过文字识别技术将图像上的文字识别出来。
2. 参考文献
[1] 李峰.英文科技文档中数学公式的定位、识别与重建[D].大连:大连理工大学,2007. [2] Zhang S, Li W. Skew correction method for document image based on projection[J].Computer Engineering and Applications, 2010, 46(3): 166-168. [3] 王宇.文本中数学公式定位与识别算法研究与实现[D]. 北京:北京交通大学,2016. [4] 童立靖,张艳,舒巍等.几种文本图像二值化方法的对比分析[J].北方工业大学学报,2011,23(1):25-33. [5] 孙吉祥.图像处理[M]北京:科学出版社,2004
3. 毕业设计(论文)进程安排
起讫日期 设计(论文)各阶段工作内容 备 注 2016-12-01~2016-12-31 搜集资料,学习有关基础知识、研究学习参考文献,写开题报告,开题。
5周(14~18) 2017-02-20~2016-03-12 熟悉相关工具,了解图像处理的基本知识,分析题目要求,完善总体思路 3周(1~3) 2017-03-13~2017-04-02 完成实验用图像的采集、二值化、校正 3周(4~6) 2017-04-03~2017-05-07 完成汉字和孤立公式的分割 5周(7~11) 2017-05-08~2017-05-28 对方法进行测试和改进. 3周(12~14) 2017-05-29~2017-06-18 撰写毕业设计论文,论文修改、打印、答辩。
3周(15~17)