远程语音增强中的非线性失真补偿方法研究与仿真分析开题报告
2020-04-13 11:11:37
1. 研究目的与意义(文献综述)
1.1课题背景及意义
通过语音来传递信息进行交流是人类最自然,直接,有效的方式。但是由于环境的复杂度,现实生活中的语音总是不可避免的参杂各种干扰和噪声,影响人们对语音内容的理解与判断。特别是在室外、公共场合等地方,由于空间大,距离远,语音的传播减弱,再加上周围各种噪声的干扰,使得音频设备采集到的语音比较微弱,被噪声污染的比较严重。目前的安防系统中,视频监控等基于图像的监控技术已经得到了成熟的发展与应用,但是只有图像信息而缺少语音信息,一定程度上限制了对视频内容的理解与判断。对感兴趣目标的声音进行定位与识别,未来基于声音信息的监控技术将是一个很好的发展方向。目前经过麦克风阵列采集到了声音信号,通过波束形成变成单通道信号,语音信号虽然得到了增强,但是人耳听起来却很别扭,信号有了一定的失真,语音可懂度较低。如果能同时获得图像与可懂度较高的声音信息,这对监控系统技术来说将是很大的进步,能获得更加全面和详细的信息,做出更加准确的识别与判断,对安防工作具有重要意义。
1.2国内外研究现状
目前国内外关于语音增强的研究主要有三种方法:(1)在系统前端处理,提高输入信号的信噪比;(2)寻找稳健的抗噪声的语音特征参数;(3)基于模型参数的适应化的噪声补偿算法。这些算法通常只考虑到噪声环境是平稳的,在低信噪比以及非平稳环境中的效果并不是很理想。虽然能在一定程度上实现对于语音的增强,但是会造成信号的失真。
因而为了获得质量更好,可懂度更高的语音,提出了很多对语音增强中失真补偿方法的研究方法。大致分为两类,一种是寻找稳健的语音特征参数,通过归一化的方法来补偿增强过程产生的失真,诸如高通倒谱(rasta)或者倒谱均值化技术(cmn),但只能有效的解决线性卷积信道失真,对cmn进行改进又产生了mvn,能对由加性噪声引起的失真有更好的效果;另一种是声学模型参数的自适应技术,常用的有基于模型的最大后验自适应算法(map),和基于特征的有约束的最大似然线性回归算法(cmllr)。虽然自适应算法比特征归一化算法会有更好的补偿效果,但是自适应算法对计算复杂度要求较高,没有特征归一化算法简单方便。
1.3设计目的
录音过程中音频设备的过度放大的麦克风前置放大器,会造成一种非线性模拟失真(nad);低比特率的压缩处理或者不适当的谱降噪处理会造成一种非自然的频谱稀疏现象,这种失真称之为频谱掩蔽失真(smd)。特征归一化方法和信道/说话人自适应方法是两种较好的失真补偿方法,基于直方图均衡的特征归一化技术对nad有一定的补偿效果,有约束的最大似然线性回归的自适应特征调整方法适用于对nad和smd进行补偿。将基于直方图均衡(heq)的特征归一化技术和有约束的最大似然线性回归(cmllr)的自适应特征调整方法结合应用于语音增强,来补偿增强过程中造成的非线性失真,验证是否能获得有效的补偿效果,获得质量更佳的语音,实现更高的语音可懂度,使得人耳能对语音内容有更好的辨别效果,也能为后续的语音识别以及其它的语音处理奠定良好的基础。
2. 研究的基本内容与方案
2.1研究内容
① 进行直方图均衡等特征归一化方法在语音非线性失真中的研究;
② 开展有约束的最大似然线性回归的自适应特征调整方法在语音非线性失真中的研究;
③ 利用实验数据验证远程语音增强中非线性失真补偿方法的有效性。
2.2研究目标
① 实现直方图均衡(HEQ)等特征归一技术的算法;
② 实现有约束的最大似然线性回归(CMLLR)的自适应特征调整方法的算法;
③ 实现直方图均衡和有约束的最大似然线性回归的自适应特征调整方法组合 起来对失真语音的补偿处理;
④ 对远程语音增强中的非线性失真补偿的有效性进行验证。
2.3拟采用的技术方案及措施
系统框图如图1所示
图1 系统结构框图
① 基于语音信号的特性,对语音进行预处理,提取MFCC特征参数,如图2所示;
图2 提取MFCC系数流程图
② 基于直方图均衡的理论知识,计算MFCC特征参数的累计分布函数,一直特征参数参考分布,则均衡变换后的序列输出为
(1)
因此直方图均衡化算法的关键在于如何计算观察序列的累计分布函数。为了计算累积分布函数主要有基于累积直方图和基于顺序统计的直方图均衡算法,当数据量很大时,基于顺序统计的直方图均衡算法的算法性能更好。根据此算法原理来实现HEQ算法代码,进行仿真;
③ 有约束的最大似然线性回归的自适应特征调整方法,是指观察序列的均值和方差采用同一种变换矩阵,通常的变换形式为
(2)
(3)
利用最大似然估计算法(EM),求出使得似然函数最大化的自适应矩阵W,即可实现自适应特征调整。有约束的最大似然线性回归的自适应调整技术只改变特征矢量的值而不改变声道模型参数。据此算法原理来实现CMLLR算法代码,并对仿真结果进行分析;
④ 将两种算法组合起来对失真语音进行补偿处理,分析仿真结果,与单独使用其中一种补偿技术时的结果进行对比分析;
⑤ 将实验数据带入到上面提到的三种情况中处理,通过语音质量感知评估方法对补偿处理后的语音质量进行评价,验证直方图均衡技术和有约束的最大似然线性回归方法对远程语音增强中产生的非线性失真是否有补偿效果。
3. 研究计划与安排
第1-3周:收集、整理选题相关的文献资料,完成、完善方案论证,撰写开题报告;
第4-5周:认真学习选题相关的知识、理论和算法实现等,熟悉软硬件环境;
第6-9周:建立软硬件仿真模型、完成程序编写、仿真实验等,并做好相关记录及分析;
4. 参考文献(12篇以上)
[1] jiri malek, jan silovsky, petr cerva, et al. compensation of nonlinear distortions in speech for automatic recognition. [c]//telecommunications and signal processing,2015 38th international conference on. ieee,2015:419-423.
[2] 胡玥. 空-时自适应滤波远程语音增强方法及实现研究[d].浙江大学,2017.
[3] 晁浩,杨占磊,刘文举.基于最大似然线性回归的随机段模型说话人自适应研究[j].计算机工程与科学,2014,36(08):1604-1608.