图像文字识别及处理系统的设计与实现
2023-01-18 08:45:38
论文总字数:18459字
摘 要
人们在社交网络中的信息共享主要是通过一些视觉媒体,如图片和视频等。在过去的几年里,每天上传到社交媒体平台上的照片数量成倍增长,这对大量视觉信息的处理技术提出了挑战。图像理解的主要挑战之一是将有关图像中的文本信息检索出来,从图像中获取这样的文本信息是非常重要的。
该课题拟开发图像文字识别及处理系统,代替人工完成繁重的工作任务。系统可以自动识别并获取图片中的文字信息,即获得可编辑的文本,然后通过编辑平台,对文本内容进行复制粘贴修改等操作。同时,系统实现语音播报的功能,能够读出编辑好的文本内容,有效帮助阅读困难的用户。
本次论文提出了图像文字识别及处理系统的设计与实现,改进了相关算法的实现方式,增加了相关的功能,使之更加完善可靠。本次设计主要通过Pycharm平台运用Python语言设计出GUI界面,运用其模块的功能实现图像识别提取文字、读取文字、文字转语音、车牌识别、图片相似识别这五个主要的功能,主要用到第三库的pillow,pytesseract,pyttsx3,Tesseract,cv2模块等等。通过测试,系统识别的准确率达到80%以上,系统可用在电脑软件中的应用程序,但需要在应用方面上面进一步完善。
关键词:python;图像识别提取文字;读取文字;文字转语音;车牌识别;图片相似度识别
Abstract
People share information in social networks mainly through some visual media, such as pictures and videos. In the past few years, the number of photos uploaded to social media platform has doubled every day, which challenges the processing technology of a large number of visual information. One of the main challenges of image understanding is to retrieve the text information from the image, which is very important.
This project plans to develop image and character recognition and processing system to replace manual work. The system can automatically identify and obtain the text information in the picture, that is, obtain the text that can be edited, and then copy, paste and modify the text content through the editing platform. At the same time, the system realizes the function of voice broadcast, which can read the edited text content and effectively help the users with reading difficulties.
This paper proposes the design and implementation of image character recognition and processing system, improves the implementation of related algorithms, adds related functions, and makes it more perfect and reliable. This design mainly uses Python language to design gui interface through pychar platform, and uses the function of its module to realize the five main functions of image recognition, text extraction, text reading, text to speech, license plate recognition, image similarity recognition. It mainly uses the third Library"s pilot, pytesseact, pyttsx3, Tesseract, CV2 module and so on. Through the test, the accuracy of the system recognition is more than 80%, the system can be used in the application of computer software, but it needs to be further improved in the application.
Keywords:python;image recognition;text extraction;text reading;text to speech;license plate recognition; image similarity recognition
目 录
摘要 2
Abstract 3
第一章 绪论 6
1.1 背景与意义 6
1.2 相关研究现状 7
1.3 主要工作内容 8
1.4 论文组织结构 8
第二章 相关技术基础 9
2.1 技术介绍 9
2.1.1 pillow 9
2.1.2 Tesseract 9
2.1.3 pytesseract 9
2.1.4 OpenCV 9
2.2 本章小结 10
第三章 系统需求分析 11
3.1 系统功能需求分析 11
3.2 系统非功能需求分析 11
3.3 本章小结 11
第四章 系统设计 12
4.1 系统总体设计 12
4.1.1 系统功能模块结构设计 12
4.1.2 系统总体工作流程设计 12
4.2 系统详细设计 13
4.3 核心算法设计 15
4.4 本章小结 15
第五章 系统实现与测试 17
5.1 系统实现工具与环境 17
5.2 系统主要运行界面以及核心代码分析 17
5.2.1 主界面 17
5.2.2 图像识别提取文字的实现 18
5.2.3 读取文字的实现 21
5.2.4 文字转语音的实现 22
5.2.5 车牌识别的实现 23
5.2.6 图片相似识别的实现 25
5.3 本章小结 28
第六章 总结与展望 29
6.1 总结 29
6.2 展望 29
致谢 31
参考文献 32
第一章 绪论
1.1 背景与意义
现代人们在各种社交互动网络中获取和分享的信息主要都是通过一些可以看到的视觉媒介,比如图片和视频。在刚刚过去的几年里,上传至各种社交网络媒体平台的图像数量每天都在逐步地成倍递增,这对于信息先关的技术的发展形成巨大的影响。[1]图像识别技术方是将计算机电子图像中的各种字体、图形或者场景中的文本直接转换成计算机编码文本的一种识别过程。图像字符识别是检测和识别图像中的字符,并将其转换成电子文本,或称为光学字符识别(OCR Optical Character Recognition)。[2]
自动辨认技术在智能轨道交通,地图信息的采集,以及社会管理等方面都是十分重要的。用于场景画面和合成文档的画面图像,以及现实生活中需要翻译的英语等其他语言。[3]
剩余内容已隐藏,请支付后下载全文,论文总字数:18459字