基于语音信号的听觉感知研究

2022-11-26 12:59:02

论文总字数：39917字

摘要

语音听觉感知是主要研究人耳如何收听，感知和理解语音信号的，并且是语音识别，语音分离和语音通信等许多应用的基础。在文中，我们探索了一个深度循环神经网络，在有监督的环境当中将人声与单声道噪音进行分离。其次，对分离后人声中的元音和辅音的稳态信息以及边界动态信息对语音感知的影响进行介绍。最后，通过建立可懂度预测模型，由均方误差和感知语音质量评价的方法来表征，得到客观预测结果。

关键词：语音分离；深度神经网络；语音感知；可懂度

Research on Auditory Perception based on Speech Signal

Abstract

Speech auditory perception is mainly researching how the human ear listens to, perceives and understands speech signals, and is the basis of many applications such as speech recognition, speech separation and speech communication. In this article, we explored a deep recurrent neural network that separates human voice from monophonic noise in a supervised environment. Secondly, the effect of steady-state information of vowels and consonants in the separated human voice and boundary dynamic information on speech perception is introduced. Finally, through the establishment of an intelligibility prediction model, which is characterized by the mean square error and perceptual speech quality evaluation methods, objective prediction results are obtained.

Keywords：Speech Separation，Deep Neural Network，Speech Perception，Intelligibility

目录

摘要 I

Abstract II

第一章绪论 1

1.1 课题研究背景及其意义 1

1.2 语音分离技术的国内外研究现状及分析 2

1.2.1 语音分离技术的发展历史 2

1.2.2 基于深度学习的语音分离技术 2

1.3 论文主要研究内容 3

1.4 论文的组织结构 3

1.5 本章小结 3

第二章语音分离的基本理论 4

2.1 语音信号分离方法 4

2.2 单声道分离方法 4

2.2.1 语音增强 4

2.2.2 计算听觉场景分析 5

2.3 本章小结 6

第三章深度循环神经网络语音分离方法 7

3.1 深度循环神经网络DRNN 7

3.2 模型结构 10

3.3 训练目标 10

3.4 元音和辅音的稳态信息和边界动态信息 11

3.5 本章小结 12

第四章实验设计与结果 13

4.1 数据集和环境设置 13

4.2 性能指标 13

4.2.1 均方误差MSE 13

4.2.2 感知语音质量评价PESQ 13

4.3 性能参数分析 14

4.4 实验结果 15

4.5 本章小结 15

第五章总结与展望 16

5.1 论文总结 16

5.2 工作展望 16

致谢 17

参考文献（References） 18

附录 20

第一章绪论

1.1 课题研究背景及其意义

语言声学是关于探索和人类声音相关的一门语言科学，并且是在声学领域的重要部分。包含的内容有语音的产生，传输，感知，理解以及其在计算机上的实现等，这些特点反映在以“言语链”（如图1.1）为代表的人类言语交流过程中^[1]。语音听觉感知作为语言声学的重要组成部分，已经在各方面占领了重要的位置，例如语音识别，语音分离，语音通信等许多的常用基础应用。

图1.1 人类言语的“言语链”

在这个被科技引领的时代，人们用来传播信息的途径也是日益递增，包括文字，语音，图像和视频。但被使用最为广泛以及最为方便的一种交流模式是语音，从父辈们的老式手机通信到现在的微信语音证实语音是沟通的重要组成成分。随着人工智能的迅速崛起，智能机器人的大量研究，已经生产出可以和人类进行简单对话的智能机器人。例如，小米ai自动接听，百度语音等。由此可以看出，语音开发技术在不断创新和提高。但是，日常环境中的常有的噪声常常是语音信号中的干扰因素，因此在安静的环境中比在嘈杂的环境中，机器必须更易于识别和响应人们的声音，因而对语音分离引起足够的重视。

在日常的生活中，有关于应用到语音分离技术的日常用品已经日益增多，比如人声分离可降低AI同传“乌龙率”，腾讯指出AI同传存在中英双语切换频率的问题，在后期处理的时候，中文以及英文识别系统会一起开始启动，这样一来便会使得它们相互矛盾，从而引起语音识别的紊乱。而人声分离技术的应用，为AI同传中的人声识别提供了一个有效的解决途径；还能加强智能音响识别精准度，智能音箱的问世，使得普通家庭进入了语音互动的时代，但在嘈杂的环境中识别语音指令还是一个难点，而语音分离提供了解决途径。到目前为止，已经在语音分离上提出了非常多的关于深度学习的分离方法，特别是深度神经网络被大范围地应用在语音识别的实际生活中，如语音识别和增强，已收获了不错的效果。

在本课题中，探索了使用深度循环神经网络技术在有监督的环境中从单声道语音中分离人声和背景音乐的方法以及在人声部分里元音和辅音的稳态信息以及边界动态信息的介绍。

1.2 语音分离技术的国内外研究现状及分析

1.2.1 语音分离技术的发展历史

Cherry在1953年提出了著名的“鸡尾酒会效应”问题^[2]。在1979年，Berouti基于谱减法提出新的算法，即为增加两个参数，从而改善语音分离性能。然而，这两个参数主要是基于人的经验进行设定的，因此也就会影响到算法的稳定性与可靠性。Sim等经过研究与分析后正式提出维纳滤波法。在1987年，Paliwal等经过研究与分析后正式提出卡尔曼滤波技术，以期能够妥善地解决单通道语音分离问题^[3]。在1989年，Ephraim等经过研究分析后，提出以HMM作为基础的改进算法^[4]。在1993年，Cooke等经过深入地研究与大量实验操作后，提出在计算听觉场景分析的基础上发展而来的单通道语音分离系统^[5]。在2006年，Hinton等经过研究与探讨后，提出在无监督的前提下开展的预训练方法，这实现了对于深度神经网络问题的解决。在2013年，Wang等在最优特征组合的基础上提出新的算法模型^[6]。在2014年，Le Roux等经过研究与探索后正式提出，把NMF进行扩展，其变成深层结构的算法。把其运用至语音分离中，这样一来就会有效地改善实际的性能^[7]。

1.2.2 基于深度学习的语音分离技术

剩余内容已隐藏，请支付后下载全文，论文总字数：39917字

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码