基于Python的图片文字识别方法研究开题报告
2020-02-20 08:15:35
1. 研究目的与意义(文献综述)
【研究目的及意义】
随着因特网,智能手机以及微信,qq等社交网络的发展,给我们带来的大量的图片资源,图片成为因特网信息交流的主要媒介之一。而文字是图片信息存储和传递的重要载体,快速识别并处理图片文字信息对我们的工作或生活具有非常重要的作用。同时,在文本和其他对象同时存在的图片中,往往用户会更加关注图片中的文本内容,因此如何能够准确、快速地识别图片中的文字,对图片的主题和含义有更加深入的理解。然而,关于图片文字识别的研究还很少,相关算法也很不成熟,急需进一步的研究和探索,所以,图片文字识别技术在近年来越来越受到重视,图片文字的提取与识别在我们的办公、日常生活、盲人等特殊群体、实时车牌定位、实时处理票据、图像和视频检索等多个领域都有应用。比如:腾讯光学字符识别(optical character recognition,ocr)的应用,可以快速识别腾讯qq中的文字信息,有效区分文字内容是否合规,过滤违规文字,可以对qq用户进行身份识别,可广泛应用于需要用户身份验证的场景中,降低用户输入错误,有效提升用户体验。还可以广泛应用于信息的检索,大大降低人力成本。但是,当下图片文字识别准确率在特定场景下还未能超越人类,传统意义上的搜索目前还不能完全摆脱图片文字搜索的局限,因此,深入探索一个更加精准、快速的图片文字识别算法具有十分重要的意义。
2. 研究的基本内容与方案
【研究内容】
项目主要针对基于python的图片文字识别方法进行探究,根据传统的文字识别算法和技术进行改进和补充,并结合近年来深度学习技术,对不同的识别方案进行比较,选择最佳的方案来实现系统设计。最后设计与开发出一个完整的基于深度学习的图片文字识别系统,该系统主要实现图像预处理,无监督特征学习,基于python的字符检测,字符分类和文本行识别。
【研究目标】
3. 研究计划与安排
1~2周:查阅文献,阅读资料,翻译文献,完成开题报告;
3~4周 : 对比国内外图片文字识别算法,完善设计方案,搭建系统编程环境;
5~6周:学习理解并建立图像预处理算法模型,无监督特征学习算法模型;
4. 参考文献(12篇以上)
[1] karensimonyan, andrew zisserman. very deep convolutional networks for large-scaleimage recognition. iclr, 2015.
[2]m. egmont-petersen, d. de ridder, h. handels. image processing with neuralnetworks—a review. pattern recognition, 2002, 35: 2279–2301.
[3]ivind due trier, anil k. jain, torfinn taxt. feature extraction methods forcharacter