采用MFCC特征参数的GMM模型说话人识别系统开题报告
2022-01-11 17:39:44
全文总字数:4682字
1. 研究目的与意义及国内外研究现状
目的:语音是人的自然属性之一,由于各个说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩。因此每个人的语音中蕴含着与众不同的个人特征,如果能从每个人的语音中提取出他或她的个人特征,那么我们就可以把这些作为他们的标识,从而在不同场合利用他们的语音来鉴别他们的身份。
用语音来鉴别说话人的身份有着许多独特的优点。对于正常人来说,语音是人的固有特征,不会丢失或遗忘;每个人的声带、咽喉、口腔和鼻腔的构造不同,而且每个人在肺部收缩,压迫气流由支气管经过声门和声道的方式不同,导致每个人的语音特征有极强的个性,很难模仿,具有个人特征的唯一性;语音信号采集方便,系统设备成本低;另外利用电话网络还可实现远程客户服务等等。
意义:语音作为一种基于生物特征信息的身份识别方法,说话人识别通过语音来识别说话人的身份,近年来在相当广泛的领域内已经发挥出了重要的作用,如安全保卫领域(如机密场所入门控制)、公安司法领域(如罪犯监听与鉴别)、军事领域(如战场环境监听及指挥员鉴别)、财经领域(如自动转账与出纳等)、信息服务领域(如自动信息检索或电子商务)等等,是当今语音信号处理和生物特征信息检测和识别领域的重要研究方向,具有广泛的应用前景,越来越受到人们的重视。
2. 研究的基本内容
常用于说话人识别的两种方法:vq法和gmm模型法。本实验中运用gmm模型法。通过对算法本身的特点以及适用性进行研究,针对gmm模型方法作了改进,并通过matlab软件进行了仿真,经过实验可以看出方法改进的有效性。
对于gmm模型每一个高斯分量的参数通过em算法来训练,gmm模型的高斯分量的个数m和模型的初始参数必须首先确定。如果m取值太小,则训练出的gmm模型不能有效地刻画说话人的特征,从而使整个系统的性能下降;如果m取值过大,则模型参数会很多,从有效的训练数据中可能得不到收敛的模型参数,同时,训练得到的模型参数误差会很大,而且,太多的模型参数要求更多的存储空间,而且训练和识别的运算复杂度大大增加。
1.语音产生的原理及模型;
3. 实施方案、进度安排及预期效果
实施方案:用matlab进行编写调试,先了解语音识别的方法:gmm模型法,然后据此进行与所学的知识进行改进,运用em算法,在原有的基础上引入能量分类形成高斯混合模型,再用matlab进行界面的编写,将代码的功能以界面的形式显示出来。
进度安排:2018.3.23-2018.3.31:查询相关书籍,对选题制定实施方案;
2018.4.1-2018.4.8:按照方案进行设计,并查阅书籍,进行完善;
4. 参考文献
[1] 赵力,语音信号处理,北京:机械工业出版社,2003.4
[2] 丁爱明. 作为说话人识别特征参量的mfcc的提取过程[j]. 电子工程师, 2006, 32(1): 51-53.
[3] 刘亚丽,杨鸿武,黄德智:“基于加权mel倒谱系数的说话人识别”,计算机应用与软件,2009.9