基于长短时记忆网络的单信道语音增强算法文献综述
2020-05-04 21:17:24
单信道语音增强是指当语音信号在单麦克风条件下受到背景噪声干扰后,从背景噪声中提取语音信号、抑制背景噪声的技术。语音增强技术可以降低噪声干扰,提高语音信噪比,其研究对提升复杂噪声背景下的语音通信质量具有重要意义,在手机等语音通信设备中有着广泛应用。本研究以提升增强语音质量为目标,致力于训练高性能的深度神经网络和选取更优的语音特征参数,研究基于深度神经网络的单信道语音增强技术。
无监督语音增强方法,即传统语音增强方法的研究已有几十年历史,包括谱减法,基于统计的方法,子空间、维纳滤波等,传统的方法对平稳噪声的抑制效果较为显著,但是对于非平稳噪声,往往不能取得很好的效果,且在不同程度上存在“音乐噪声”。有监督条件下的学习类语音增强方法,包括基于字典学习和稀疏表示类的算法和基于深度神经网络类的算法。基于字典学习和稀疏表示类单通道语音降噪算法,只是利用了信号时频幅度谱的信息进行字典学习和稀疏表示,没有充分挖掘出带噪信号中语音和噪声信号的其他联系。而深度学习语音增强,利用深度神经网络结构强大的非线性映射能力,通过大量数据的训练,训练出一个非线性模型进行语音增强,取得了十分不错的效果。
文献 [6] 提出一种将深度神经网络和约束维纳滤波联合训练优化的新型网络结构来实现单通道语音增强任务,对带噪语音幅度谱进行训练并分别得到纯净语音和噪声的幅度谱估计,计算得到一个约束维纳增益函数,最后利用约束维纳增益函数从带噪语音幅度谱中估计出增强语音幅度谱作为网络的训练输出,利用约束维纳滤波平衡增强中的失真和残留噪声的优点。文献 [10] 针对传统的最小均方自适应滤波(LMSAF)语音增强算法和现有的神经网络、深度神经网络计算进行了研究。首先,在对含噪语音进行端点检测模块,提出了基于BP神经网络和多特征的语音端点检测算法,采用遗传算法(GA)优化BP网络的初始权值和阈值。然后提出了一种基于深度神经网络(DNN)的噪声分类算法适用于不同种类的噪声环境,并将噪声分类结果应用到改进的最小均方自适应滤波(ILMS AF)语音增强算法中,并利用深度置信网络(DBN)获得滤波器的自适应系数,实现基于DNN和噪声分类的QMSAF语音增强。文献 [7] 提出用回归DNN去学习带噪语音的对数功率谱和干净语音的对数功率谱之间的复杂的非线性关系以及基于DNN语音增强中的多目标学习准则,该方法能优化训练DNN的目标函数,获得更好的性能。文献 [1] 提出了一种监督学习方法,通过在DNN基础上找到噪声和干净语音信号之间的映射函数来增强语音,还提出了几种技术来改逬基于DNN的语音增强系统,包括用于减轻回归模型的过度平滑问题的全局方差均衡以及用于进一步提高DNN的泛化能力的丢失和噪声感知训练策略看不见的噪音条件。
语音增强等相关算法一直是语音信号处理上重要的课题之一,国内外的研究都较为广泛,学者们也提出了许多有效的算法,然而语音系统的广泛应用以及对语音信号的更高要求,伴随着智能设备的普及带来的数据采集以及云计算能力的快速发展,也让语音增强成为愈发具有研究价值的课题[7,9]。而目前的语音增强算法大多采用全连接的DNN,可以尝试利用音频序列使用lstm网络来取得更好的效果。
{title}2. 研究的基本内容与方案
{title}设计内容:
1、带噪语音训练库构建:准备在不同噪声背景、不同信噪比以及不同说话者等情况下的带噪语音,带噪语音和与之对应的干净语音一同构建成一个较为完备的单信道语音训练库;
2、特征提取与深度神经网络训练:首先设定语音信号分析参数,逐帧提取带噪语音和对应原始干净语音的特征参数,然后构建深度神经网络,训练带噪语音与干净语音在特征参数域内的非线性拟合关系,或者学习干净语音与带噪语音所对应的特征参数值的比例关系,选择合适的特征参数和训练性能更为优越的深度神经网络是该研究最为核心的部分;
3、去噪与语音合成:将测试用带噪语音转换到特征参数所在域,利用深度神经网络所学习的带噪语音与干净语音之间的拟合关系或者比例关系,预测干净噪声的特征值,然后通过反变换合成干净语音信号。
目标: