课件图片文字识别方法研究与实现文献综述
2020-04-15 15:19:43
1.1 背景资料
随着社会教育的不断进步和发展,多媒体教学应用越来越广泛。通过使用投影配合课件授课的形式在课堂中越来越普及,这一现象在各大高校中尤为突出。虽然使用课件教学免去了教师写板书的麻烦,但是学生在记笔记方面产生了新的问题——课件内容难以快捷方便的记录下来。学生手写笔记难以跟上教师的速度,并且十分影响听课质量。虽然很多老师采取了课下将课件给同学的方式,但即使是这样其中还存在许多问题:课件中许多内容是以图片形式存在,学生难以提取出其中内容。并且由于版权等其他问题,学生经常面临着无法从教师处获得课件的情况,只能在上课时使用手机拍照以图片的形式存储课件内容。无论是上述那种情况,都存在着知识点以图片的存在不方便学生进行在学习、复习。伴随着人工智能技术的不断发展,OCR图片识别使通过图片采集到上面的文档信息越来越普及,研究并实现一种灵活性强,能够便捷的将课件上的内容捕捉下来并以文本形式输出的系统十分可行并且对于学生学习方面具有重要意义。
1.2 目的及意义
针对当前教学课堂中存在的课件记笔记问题,本课题拟对课件图片文字识别方法进行研究,并设计和实现课件图片-文字实时转换软件。通过该软件,学生能够选择已有课件中的图片或自己实时拍摄的课件拍照图片转成文字,并且能够实时的存储在电子设备中以方便以后的进一步使用。
采用上述智能软件之后,多媒体教学课堂将具备以下优点:首先教师授课更为方便,能够将多媒体教学的优势发挥到极致,而不用在遇到知识点后让学生奋笔疾书,节约了大量宝贵的课堂时间,能够讲授更多更细致的知识点。于此同时,教师也不必在课后将课件交给学生,避免了如因版权等问题不方便下发给学生的尴尬。其次,对于学生而言,使用该软件能够将记笔记的负担降低,在听课时可以将绝大部分精力放在听上,遇见需要记录的大量笔记时也不用分很多心来边听边记,极大的保障了听课质量。最后,使用该软件可以将许多图片中的信息以文档的形式输出存储,这对于后面的整理、复习都有着极大的便捷之处,无论是比起手抄笔记还是照片记录,电子档更能灵活的编辑和批注,对于日后的使用有着十分重要的意义。
1.3国内外研究现状分析(文献查阅报告)
我设想的能够使用一款智能软件能够将图片中的文字进行识别,很明显是一种光学字符识别(OCR)。光学字符识别是模拟人类视觉的智能对目标图像进行判断和识别[1]。在获得包含有文本信息的图片之后,将其中的文本信息识别出来并且能够进行数字化提取出来。目前为止,OCR在智能中断的应用中已经较为广泛,现在OCR技术已经能较好的识别一般规整文档扫描件等[2]。另外不得不提到的是卷积神经网络(Convolutional Neural Networks, CNN)[3],这是一种前馈神经网络,包含卷积计算并且具有深度结构,是深度学习的一种代表算法。卷积神经网络因为对图像有着十分优秀的处理能力,在图像识别的领域被广泛的应用。所以也可以说在OCR发展的历程中,深度卷积网络起着十分重要的推动作用。
OCR技术的发展还是很稳健的。第一个OCR相关专利出现在上个世界三十年代的德国[4],自此之后,许多欧美国家基于对报纸等各种文件的处理需求加大了对OCR技术的研究力度。到上世纪九十年代,欧美国家对英文的文档识别已经开始投入使用[5]。但是中文字符不同于英文字符,它具有结构复杂多样、字符种类繁多的特点,这导致中文字符并不像英文二十六字母一样便于识别。这些原因导致了我国对中文字符的识别起步相对较晚。尽管起步并不是那么早,但是至今为止,我们对印刷体中文识别技术(手写体相对复杂)已经较为成熟。