基于深度学习的工地检查语音识别与应用研究毕业论文
2021-11-11 20:41:35
论文总字数:22086字
摘 要
现如今,随着深度学习成为世界发展的潮流,随着语音识别技术不断的发展和进步,将深度学习应用于语音识别的思想也在众多领域内得到实现。语音识别技术在车载语音系统、智能家居等应用方向蓬勃发展,方便了人们的衣食住行,提高了工作效率,也改变了人们的出行方式,人们对人机交流的方式提出了更加准确、更加顺畅、更加快速的要求。目前,虽然基于中文普通话的语音识别技术取得了很大的进步,但由于应用领域的不同,在不同场景下收到现场条件的限制,语音识别的可靠度有着较大的差异。因此需要研究特定场景的语音特点从而提高语音识别率,以便于进行特定应用场景下的深度学习。在噪声和方言都比较严重的背景下,本文围绕深度学习,对工地安全语音识别做了以下几方面的研究:
(1)在语音信号的预处理阶段,针对工地上常见的加性机械噪音如塔吊升降以及推土机运动产生的噪声进行降噪,这里的噪音一般为高频分量,可以采用低通滤波器进行降噪处理。在对工地上的语音控制信号进行特征参数提取的阶段,本系统采用了在语音信号预处理中比较常见的提取梅尔频率倒谱系数(Mel-frequency cepstral coefficients MFCC)的方式。
(2)在实验对比的部分,采用了百度提供的语音识别模型与卷积神经网络训练的声学模型进行对比,通过分析识别的准确率在实验结果中评估了卷积神经网络在语音识别上的性能。
(3)基于上述的理论和神经网络算法,利用深度学习技术,搭建基于深度学习的工地安全检查识别系统实验平台。使用python和matlab协同实现一个基于深度学习的工地安全语音识别系统,实现包括:工地安全检查语音库的构建与识别,提取语音中的关键字,匹配对应的标准检查项,为语音识别技术在工地安全检查APP软件开发应用奠定基础。
关键词:深度学习、语音识别、卷积神经网络、特征参数、降噪
Abstract
Nowadays, with the development of deep learning in the world, with the continuous development and progress of speech recognition technology, the idea of applying deep learning to speech recognition has been realized in many fields. The application of speech recognition technology in vehicle voice system, smart home and other applications is booming, which facilitates people's food, clothing, housing and transportation, improves work efficiency, and also changes people's travel mode. People put forward more accurate, smoother and faster requirements for human-computer communication. At present, although the speech recognition technology based on Mandarin has made great progress, but due to the different application fields, the reliability of speech recognition is quite different under different scene conditions. Therefore, it is necessary to study the speech characteristics of specific scenarios to improve the speech recognition rate, so as to facilitate in-depth learning in specific application scenarios. Under the background of serious noise and dialect, this paper focuses on deep learning, and studies the following aspects of site safety speech recognition:
(1) In the speech signal preprocessing stage, noise reduction is carried out for the common additive mechanical noise on the construction site, such as the noise generated by the vibration of pile driver. The noise here is generally high-frequency component, and low-pass filter can be used for noise reduction. In the stage of feature parameter extraction of speech control signals on the construction site, the system adopts the method of extracting Mel frequency cepstral coefficients (MFCC), which is common in speech signal preprocessing.
(2) In the part of experiment comparison, the speech recognition model provided by Baidu is compared with the acoustic model trained by convolutional neural network, and the performance of convolutional neural network in speech recognition is evaluated in the experiment results by analyzing the recognition accuracy.
(3) Based on the above theory and neural network algorithm, using deep learning technology, an experimental platform of site safety inspection and identification system based on deep learning is built. Using Python and MATLAB to realize a site safety speech recognition system based on in-depth learning, the realization includes: Construction and recognition of site safety inspection speech database, extraction of key words in speech, matching corresponding standard check items, laying a foundation for the development and application of speech recognition technology in site safety inspection app software.
Key Words:deep learning, speech recognition, convolution neural network, characteristic parameters, noise reduction。
目 录
摘 要 3
Abstract 4
第1章 绪论 1
1.1 课题研究背景及意义 1
1.2 语音识别国内外研究现状及其发展趋势 1
1.2.1 语音识别国外研究现状 1
1.2.2 语音识别国内研究现状 2
1.3 卷积神经网络在语音识别上的应用 3
1.4 工作及结构安排 3
第2章 语音信号的处理 5
2.1 降噪算法 5
2.2 预处理及特征参数的提取 6
2.2.1 语音信号的预处理 6
2.2.2 特征参数的提取 7
2.3 语音识别基本流程 8
第3章 基于卷积神经网络的语音识别 10
3.1 卷积神经网络概述 10
3.2 本系统卷积神经网络的层次设计 11
3.2.1 卷积层和激活函数的设计 11
3.2.2 池化层全连接层与输出层的设置 13
3.2.3 损失函数设置 14
3.3 学习与训练神经网络模型 15
第4章 实验及分析 16
4.1 实验配置与数据 16
4.1.1 实验配置 16
4.1.2 实验数据 16
4.2 声学模型 18
4.3语言模型 19
4.4 其他功能 20
第5章 结论与展望 23
致谢 25
参考文献 26
- 绪论
1.1 课题研究背景及意义
语音是人类进行交流的有效手段之一,在人类进化发展史上有着重要的作用。随着技术的发展和对生产效率的要求的提高,传统的人机交互手段如鼠标、键盘等输入方式已经不能满足人们在生产生活的要求。而语音作为十分便捷的交流方式,可以达到和机器进行方便快速交流的要求[1]。语音识别技术也称自动语音识别技术,可以将人类语音转化为计算机的可读输入,也是随着人工智能的兴起而备受重视,蓬勃发展的一门技术。语音识别其含义包括狭义和广义两个方面[2]。其中,狭义层次的语音识别指的是计算机将人类语音准确无误的转化为与之相对应的文字,而广义层次的语音识别则是指计算机准确的领会人类某一段语音表达的意思,目前,语音识别技术被广泛应用与生产生活的各个领域之中,如:车载语音系统,键盘语音输入,讯飞公司出品的随身翻译,各种手机电脑语音助手如苹果公司的Siri,微软公司的小娜,华为公司yoyo等,语音识别技术已经被运用到实际的生产之中。在未来,随着无人驾驶、无人机、智能家居等技术的发展,语音识别也将在更加高精尖领域用于指令控制和语音问答。
我国的基建工作处于世界领先地位,在施工进程中,最讲究的就是安全和效率,为了保障安全、提高效率,开发出工地检查的语音识别系统。虽然目前基于标准普通话的语音识别系统已经有了较高的准确率,但在工地这个特定的环境中,针对噪音、方言、专业词汇等问题,应该有特定应用场景语音识别系统来实现使机器更加智能化的与人通信并完成指令,从而对提高经济效益和安全效益有着重大的意义。
请支付后下载全文,论文总字数:22086字