基于DNN的 i-vector 声学特征提取方法的研究
2022-11-26 12:58:06
论文总字数:20820字
摘 要
随着深度神经网络(Deep Neural Networks, DNN)在连续大规模语言检测中的应用,基于DNN结构的语言检测系统逐渐成为研究热点,在深层神经网络中,训练数据和测试数据之间存在差异。语音自适应技术可以利用前导信息自适应神经网络的参数,有效地改善网络的失配问题。说话人自适应技术能够利用说话人信息对神经网络参数调整,有效的改善这种不匹配问题。基于此背景,本文对基于DNN的i-Vector声学特征提取方法进行探究。论文首先从DNN、i-Vector特征提取及声学特征三个方面进行概述;其次描述了基于DNN的i-Vector声学特征提取方法;最后结合相关依据,对基于GMM-UBM-i-Vector的说话人模型选择进行探究,从而推动了说话人识别领域的研究进程,同时也扩展了该技术的实际应用范围。
关键词:DNN;i-Vector声学特征;提取方法
Research on i-Vector acoustic feature extraction method based on DNN
Abstract
With the increasing application of DNN in large vocabulary continuous speech recognition, speech recognition systems based on DNN architecture have gradually become the focus and hotspot of people's research. Similar to the traditional Gaussian mixture model-hidden Markov model, there is also a mismatch between training data and test data under the framework of deep neural networks. Speaker adaptive technology can use speaker information to adjust the parameters of the neural network, effectively improving this mismatch problem. Based on this background, this article explores the i-Vector acoustic feature extraction method based on DNN. The thesis first summarizes the three aspects of DNN, i-Vector feature extraction and acoustic features; secondly, it describes the i-Vector acoustic feature extraction method based on DNN; finally, combined with relevant evidence, talks about GMM-UBM-i-Vector The selection of the human model for exploration has promoted the research process in the field of speaker recognition, and at the same time expanded the scope of practical application of the technology.
Keywords: DNN, i-Vector acoustic feature, extraction method
目 录
摘 要 I
Abstract II
第一章 引 言 1
1.1 简述 1
1.2 国内外研究现状 1
1.3 论文内容 1
第二章 i-Vector特征提取 2
2.1 预处理 2
2.2 i-Vector特征提取 2
第三章 基于DNN的i-Vector声学特征提取方法 3
3.1 基于改进的i-Vector的模型域自适应方法 3
3.2 基于i-Vector的DNN声学模型训练 3
3.2.1 DNN声学模型自适应训练 3
3.2.2 改进的DNN声学模型自适应训练 4
3.2.3 DNN声学模型参数初始化 5
第四章 基于GMM-UBM-i-Vector的说话人模型选择 7
4.1 基于GMM的说话人识别模型 7
4.1.1 高斯混合模型 7
4.1.2 基于GMM的说话人识别模型 8
4.2 基于GMM-UBM的说话人识别模型 12
4.2.1 GMM-UBM模型 12
4.2.2 MAP自适应算法 13
4.3 身份认证矢量 14
4.3.1 均值超矢量 15
4.3.2 全局差异空间矩阵估计 16
4.3.3 i-Vector提取 17
第五章 实验过程结果及分析 18
5.1 基于DNN的I-Vector的提取 18
5.1.1 TIMIT任务参数设置 18
5.1.2 Switchboard任务参数设置 18
5.1.3 实验结果与分析 19
5.1.4 影响因素分析 19
5.1.5 TIMIT任务 19
5.2 基于GMM-UBM-i-Vector的说话人模型选择 20
5.2.1实验参数设置 20
5.2.2 GMM-UBM的混合度选择 21
5.2.3说话人识别模型性能比较 21
第六章 总结和展望 22
致谢 23
参考文献 24
第一章 引 言
1.1 简述
说话人识别是用于根据收集的声音信号识别扬声器的一种生物测量技术。近年来,说话人行为的研究越来越受到重视。主要采用高斯混合模型,通过一些研究,在高斯混合模型的基础上采用说话人识别系统GMM-UBM来提高说话人的质量。最后,完善系统的性能,成功地进行了说话人核对系统。
1.2 国内外研究现状
Kunny提出了一种联合因子分析(Joint Factor Analysis, JFA)技术及超矢量高斯混合模型(Gaussian Mixture Model, GMM)的高性能空间的两部分可以限制扬声器和信道之间的差异。但是使用联合因子分析技术时通道空间还含有少量的说话者声音信息。传统的因子分析集建模过程是基于两个不同的空间,即由函数空间矩阵定义的通道空间和由通道空间矩阵定义的通道空间,Dehak提出从GMM平均向量中提取一个更紧凑的向量。从自然的角度来看,i-Vector是读者的身份。i-Vector方法使用空间替换两个空间。这种新的空间称为全局差分空间,它包含了扬声器和信道之间的差异,i-Vector的建模过程没有严格区分扬声器和信道对GMM的影响。这种建模方法的动机来自Dehak的另一项研究:JFA建模后的信道因素不仅包括信道效应,还包括说话人信息。使用i-Vector有很多优点。例如,i-Vector介质的维度可以被固定以恢复声音信息的原始可变长度序列。
1.3 论文内容
剩余内容已隐藏,请支付后下载全文,论文总字数:20820字