登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 电子信息工程 > 正文

基于深度学习的场景文字检测与识别研究毕业论文

 2021-12-30 20:42:09  

论文总字数:22501字

摘 要

近年来,场景文字检测随着神经网络的发展,也得到了迅速的发展。然而,该技术在工业应用中还存在着两大难题。一方面,目前大多数的算法都需要包围盒来精确定位目标任意形状的文本。另一方面,两个文本实例之间的距离过近导致模型分割区域时产生错误。基于语义分割的传统方法可以解决第一个问题,但通常不能解决第二个问题。针对这两个问题,本文引入了一种新的渐进尺度扩张网络(PSENet),并在其基础上对他进行了优化,使得该网络面对形状多变的文本也可以发挥很好的检测效果。图片通过PSENet之后,其中的每个文本实例会生成不同比例的核,并将最小比例的核不断合并周围属于该核的像素点,一直到变为具有完整形状的文本实例。由于最小尺度核之间几何距离较大,渐进扩展算法能够十分有效地分割相互靠近的文本实例,这样使得渐进扩展算法更易于检测任意形状的文本实例。本文在一些常用的数据集上进行了测试,验证了PSENet的有效性及优越性。论文对英文和中文文字都进行了检测识别,英文识别效果较好,中文文字还需要进一步训练提高。

关键字:文本检测 内核 分割文本 任意形状

Abstract

Scene text detection has witnessed rapid progress especially with the recent development of convolutional neural networks. However, there are still two problems in the industrial application of this technology. On the one hand, most of the current algorithms need bounding boxes to accurately locate the arbitrary shape of the target text. On the other hand, the distance between two text instances is too close, which leads to errors in segmentation. The traditional method based on semantic segmentation can solve the first problem, but usually it can't solve the second problem. In order to solve these two problems, this paper introduces a new progressive scale expansion network (psenet), and optimizes it on the basis of it, so that the network can also play a good role in the detection of text with changeable shape. After a picture passes through psenet, each text instance will generate a different proportion of the core, and the minimum proportion of the core will continue to merge the surrounding pixels belonging to the core until it becomes a text instance with a complete shape. Because of the large geometric distance between the minimum scale cores, the algorithm can segment the text instances which are close to each other effectively, which makes the algorithm easier to detect the text instances with arbitrary shape. In this paper, some commonly used datasets are tested to verify the effectiveness and superiority of psenet.Both English and Chinese characters are detected and recognized, the recognition effect of English is good, and Chinese characters need further training.

Keywords: text detection;kernel;split text;arbitrary shape

目录

摘 要 I

Abstract II

第一章 绪论 1

1.1 引言 1

1.1.1 文字识别简介 1

1.1. 2 深度学习简介 1

1.2 本论文主要任务 3

1.3论文的主要安排 3

1.4 本章小结 4

第二章 相关技术简介 5

2.1 Pytorch介绍 5

2.1.1 Pytorch 的架构 错误!未定义书签。

2.1.2 Pytorch 与 Tensorflow的差异 错误!未定义书签。

2.2 OCR技术简介 5

2.2.1 OCR的应用场景 6

2.2.2 OCR的技术路线 7

2.3 本章小结 7

第三章 软件系统和算法设计 8

3.1 方法对比及选择 8

3.1.1 基于Bounding box回归 8

3.1.2 基于语义分割 8

3.1.3 渐进扩展算法 9

3.2 PSENet算法介绍 10

3.2.1 主干网络特征金字塔 10

3.2.2 PSENet的总体结构 11

3.2.3 渐进扩展算法 11

3.3 标签生成 12

3.4 系统与算法流程图 14

3.4 本章小结 17

第四章 数据集的选择和训练分析 19

4.1 ICDAR的简介 19

4.2 PSENet和其他方法在各种数据集的表现 20

4.1 训练过程 22

4.2 运行环境介绍 22

4.3 代码简析 23

4.3.1 像素扩展代码分析 23

4.3.2 FPN网络代码 23

4.3.3 测试代码分析 24

4.3.4 训练样本代码分析 24

4.4 本章小结 25

第五章 设计结果 26

5.1 设计结果展示 26

5.2 本章小结 28

第六章 总结与展望 30

6.1 总结 30

6.2 展望 30

参考文献 31

致谢 33

第一章 绪论

本章主要介绍本课题的研究背景、OCR技术发展及研究现状,介绍了场景文字识别的基本内容和发展情况,也简要的叙述了设计使用的深度学习的发展概况。

1.1 引言

1.1.1 文字识别简介

文字,是人类交流思想、传递文明的途径,摆脱了时空的束缚,自始至终起着举足轻重的作用。文本有别于各种形式的图片和视频,逻辑更加严密,表达更加简洁。这个特性使得文本在图像和视频中呈现出一种独特而独特的信息获取方式。使用包含在文本中的深层语义,可以使场景信息被更有效地利用。自然场景的文字检测与识别技术,逐渐成为计算机视觉领域的研究热门的课题之一。但是,OCR技术需要提供的图像质量高,并且需要输入背景清楚,包含字体较为简单的图片,且需要整齐的排列文字, OCR (optical character recognition)技术在这一限制下,识别水平较高。不像文本识别那样,在自然场景图像中保证定位的准确性十分具有挑战。在自然场景中,背景较为复杂,文字布局多变,分辨率低,光线不均匀,语言多,方位多,这些都增加了文字检测的难度。针对这些挑战,学术界和实业界进行了大量的研究和实践工作,针对场景文字检测问题,提出了一系列的模型和方法。本文针对这些模型和方法进行了深入的研究,以期在场景中获得更好的文字检测和识别效果。

1.1.2 深度学习简介

Geoffrey Hinton等人提出了深度学习(Deep Learning,DL)的概念,主要通过一层一层的网络结果来模拟人类大脑的生理活动,模拟人类对于数据的深层抽象的反应来赋予给机器处理数据,可以达到人脑的效果。简单来说,深度学习是一个模型,它可以成功地将特征提取和分类结合在一起,减少了人类在设计中的参与环节,可以让机器自己模仿人类,自动提取到特征。深层网络可以更好的完成深度学习训练,和用传统反向传播训练深层网络相比,弥补了其中的不足。所以一般情况下直接将二维图片输入到网络中就可以得到一个预期的结果。自然语言处理、语音识别和图像处理都使用到了神经网络的技术进行研究。

自然语言处理同时使用了语言学与人工智能,它可以让计算机模拟人类,看懂人类的文字语言。以往研究的自然语言处理主要是语言学的使用,结合统计学方法获取语言知识,由于浅层次的机械学习模式(如 SVM、逻辑回归等)的发展,自然语言处理取得了卓越的进步,但并不能理解含有歧义的语句,也不能理解含义较深的语言。最近几年来,深度学习相关技术(DNN、 CNN、 RN等)的研究进展很快。同时,在自然语言处理方面的应用也具有优势。

请支付后下载全文,论文总字数:22501字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图