有限语音数据下基于说话人识别的高效建模技术外文翻译资料
2022-11-22 15:33:57
英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
毕业论文(设计)
英文文献翻译
英文题目 Efficient Modelling Technique based Speaker Recognition under Limited Speech Data
中文题目 有限语音数据下基于说话人识别的高效建模
技术
有限语音数据下基于说话人识别的高效建模技术
Satyanand辛格
CMRIT,ECE部门,Secunderabad,
500010,印度电子件:yogitechno@gmail.com
Abhay Kumar和David Raju Kolluri
研究学者,SSSUTMS,CSE部门,Sehore,466001,印度
圣彼得工程学院副教授,CSE部门,塞康德拉巴德,500014,印度
电子邮件:{abhay1880,kolluridavid}@gmail.com
摘要——迄今为止,已经在自动说话人识别(ASR)中设计了针对特定数量的语音数据的说话人特定特征提取和建模技术。一旦语音数据受到限制,ASR性能急剧下降。受限语音数据的ASR系统一直是一个极具挑战性的任务。ASR的主要目标是对系统中的新来话人做出判断,使其成为注册发言人的成员。本文给出了三种不同的说话人特定提取信息建模技术的比较(I)模糊C均值(FCM)(II)模糊矢量量化2(FVQ2)和(iii)新型模糊矢量量化(NFVQ)。使用这三种建模技术,我们开发了一种文本无关的自动说话人识别系统,该系统在计算上是适度的,并且用于识别非合作的说话人。在这项调查中,说话人识别效率相比,小于2秒的文本无关的测试和训练话语的德克萨斯仪器和麻省理工学院(TIMIT)和自收集数据库。通过隐藏离群值并用最接近的码本矢量来分配ASR,ASR的效率提高了1%,TIMIT和自收集数据库的建模技术的效率分别为98.8%、98.1%。
关键词——矢量量化,模糊C均值矢量量化,模糊矢量量化2,新型模糊矢量量化,目标函数。
I. 介绍
ASR是一种智能机器,能够从语音中识别出一个人[1]为了从数据库中挑选出说话人,ASR系统需要足够的语音数据,目的在于它能够很好地分离说话人,从而产生可靠的识别[2]。在训练和测试数据都短的情况下,主要目标是识别说话人。由于在受限的信息条件下,非合作的说话人的语音数据的测量很小,所以机器能够获得较少的特征向量,这些特征向量不足以对说话人进行建模和识别[3]。过去四年的研究表明,现有的ASR系统已经达到了一个里程碑,在提供了绰绰有余的测试/训练话语时具有明显的性能,并且信噪比(SNR)足够大。
基于有限的语音数据的说话人识别系统的文献调查的所有作者都将注意力集中在近距离说话人之间的歧视性训练/评分[4],聚类[5]和邻域信息[6]。
在这项研究中,近距离ASR的问题集中在大约100名讲话者在训练和测试中的约2~3秒大小的低语音数据录入的要求上。在发言者注册时,如果训练/测试的语音信号在几秒钟内,则说话文本的音素将被分割,并且在讲话者的训练模型空间中带来声学间隙情况。当一个被征聘的说话人的测试令牌包含了没有存在于ASR系统中的语音时,它会导致低概率的得分,并且对于说话者来说可能是一个错误的选择。(即,测试ASR期间发现的音素,但不在同一说话人的训练数据中导致说话人模型被拒绝。)[7]。
到目前为止,已经做出了一些努力,已利用通用背景模型(UBM)的思想来区分处于不适当语音信号环境下的人以减少不足,这需要额外的语音数据来训练GMM-UBM ASR系统模型[4] .S。 Kwon和S. Narayanan试图通过选择分离说话人的分量矢量,可以在有限的语音数据条件下区分说话人[8]。正如我们之前所指出的那样,在语音数据有限的情况下,只有少数几种建模技术是最直接可行的,如FCM,FVQ2和NFVQ可能用于演示发言者。这些建模技术非常简单,计算复杂度较低。
ASR中语音数据有限的挑战
只有在训练和测试话语的数据量足够大的情况下,ASR才能表现出色。 在几个ASR中,客户不愿意提供足够的语音数据,特别是用于电话银行的测试。 在不同的情况下,收集适当的语音数据非常困难,例如在法律应用中[9]。
最近的研究主张,如果在测试阶段使用的语音数据降低10%(从20秒的语音数据到2秒的语音数据),ASR的性能从相等的错误率(EER)从6.34%突然下降到23.89% )[9]。在ASR应用中,一旦测试语音数据小于2秒,系统在EER 35%方面的性能已由MAK等人报道。[10]。
II. 相关工作
迄今为止,对基于有限语音数据的ASR系统进行了研究。联合因子分析(JFA)通过改变不同子空间中的变异性,可以在有限语音数据的情况下增强ASR的性能[11]。基于JFA和I向量建模的有限语音数据的ASR性能的比较已经通过各种补偿技术[12]报道。此外,在[9]中提出了一种基于分数的部分确定系统,它估计了每个测试语音部分的优越性,并考虑了伴随模型的排列,并用可靠的片段对测试语音进行评分。当测试语音数据小于15秒时,ASR的相对EER衰减率为22%。
我们已经评估了各种建模技术的效率,计算复杂度及其性能增强的参数。例如,在FCM的情况下,特征向量被聚类成没有重叠的方式,而在FVQ2的情况下,特征向量以重叠的方式聚集。因此,聚类的原理是不同的。在FCM和FVQ2中不可能隐藏离群值的存在,但是NFVQ建模技术用最接近它们的码本向量替换它们。
通过使用FCM和FVQ2建模的码本的设计仅采用清晰的决策过程[13],每个训练向量仅分配给一个簇。归根结底,FCM和FVQ2技术没有考虑到特定训练向量也可能属于另一个集群的可能性。NFVQ有效地检验和解决了FCM和FVQ2[14]无法解决的复杂、不明确和不太符合逻辑的系统。模糊逻辑是一种关键的思维控制框架策略,它适合于从基本的、小的、植入的小规模控制器扩展到大的、有组织的、多通道PC或基于工作站的信息获取和控制的框架中。它们可以通过设备、编程或两者的混合来执行[15 ]。模糊逻辑最初被认为是一种优秀的分类和处理信息的策略,但后来成为一些控制框架应用的有效决策,其中说话人是非合作的。基于模糊逻辑的说话人识别系统可以与从小型手持物品到广泛的机械化过程控制框架的任何东西相结合。在初始聚类过程中,中心是利用可比性阈值和最小距离理论的聚类策略[16]。首先,用初始聚类中心的函数对向量样本进行分组。这一策略有一个特定的最终目标是克服初始化向量,这是非常敏感的FCM聚类,并确保对一般的聚类结果的访问。该方法克服了模糊C均值聚类的初始化向量敏感的缺点,保证了对整个聚类结果的访问[17]。
III. 模糊聚类在VQ中的应用在ASR中,VQ对于数据集的演示
在ASR,VQ对数据向量x= {x1,x2,x2,nn}是不加标记的,该集合在本质上是未标记的,集V={v1,v2,hellip;vn}具有clt;n,这里xk=训练向量,x=训练集,每个VI=码本向量和集合V=码本。VQ的关键问题是概述码本。它可以通过利用系统中的脆或硬选项来构成。在清晰或困难的情况下,聚类D表示的是正常畸变,
(1)
所提出的建模技术已经与Karayiannis和PAI在[18 ]中开发的FCM和FVQ进行了比较。
用FCM算法建模
在FCM建模技术中,每个数据点都与具有不同隶属度的所有簇相关联。数据的所有隶属度之和等于1。FCM聚类的主要目的是使JM最小化,从而提高ASR性能,从而提高EER。
(2)
等式(2)中的所有变量被定义为:
n =考虑的数据点的总数。
c =建模技术中的聚类总数。
m =模糊控制参数。
= 数据点。
=群集的中心。
= 集群的隶属度。
FCM在集群中执行的步骤:
- 首先启动集群成员值,;
- 计算聚类中心
- 根据下式更新
- 计算
- 再次进行步骤ii-iv,直到JM通过不完全预定义的阈值或迭代次数来增强。
FCM聚类将每个数据点组织成具有最高隶属度的聚类。
迭代次数由聚类终止条件控制,这样的改进在两个条件满足时都需要保持一定的值:
最大迭代达到50的最极端。
在连续迭代中,的开发必须小于0.00001。
FCM目标函数=3.24288, 2.38009, 2.08069, 1.53718, 1.19842, 1.07426, 0.98673, 0.92191, 0.88394, 0.86302, 0.85027, 0.84238, 0.83758, 0.83449,0.83218, 0.82999, 0.82740, 0.82380, 0.81861, 0.81153,0.80300, 0.79438, 0.78711, 0.78184, 0.77837, 0.77619,0.77482, 0.77396, 0.77341, 0.77304, 0.77280, 0.77264, 0.77252, 0.77244, 0.77238, 0.77233, 0.77230, 0.77227, 0.77225, 0.77224, 0.77223, 0.77222.
在FCM聚类中,目标函数决定聚类终止。这里,最小目标函数在42次迭代之后达到0.77222。
用FCM建模技术得到的目标函数的最小值是JM=0.77222。图1通过FCM建模技术演示目标函数的曲线图。
图1 FCM建模技术的目标函数图
当目标函数被最小化时,迭代次数不会导致聚类之间的向量的发展,其边界限制得到解决。这可以被用来作为终止FCM计算的一个可能的指针。FCM算法的一个显著点是它的计算简单性。在图2中示出了FCM聚类的情况。
在说话人识别的基础上,对语音信号进行预处理,计算出一组特定说话人特征向量。对于任何给定的数据集,在FCM中没有广泛的假设性答案可以寻找最佳聚类数。一个基本的方法是对比各种运行的结果和不同数量的类,并选择最好的一个,如一个给定的范例所示。过度拟合的缺点在很大程度上可以通过利用信息论构造VQ来解决,这是根据数据聚类的物理澄清准则来进行的。
图2 2个簇的FCM聚类图
图3示出了利用FCM建模技术在训练数据库中可用的所有说话人语音信号的测试语音信号失真的曲线图。
使用FCM建模技术对说话人测试语音信号的失真。D = 6.471, 6.026, 12.653, 5.605, 10.039, 5.968, 8.007, 5.688, 13.014, 6.097, 5.633, 5.843, 5.573, 5.532, 6.563, 13.892, 5.654, 4.927, 6.662, 4.666, 5.8925 14.513, 8.443, 9.994, 5.794, 10.055, 6.195, 6.675, 5.192, 7.123, 6.711, 12.066, 5.209, 5.408, 6.251.
图3 基于FCM建模的失真
模糊向量量化2
通过判定来解决离群情况,该决策的可实现性得到了验证。码本向量可以由来评估,这是因为的最小化。在FCM中使用向量分配方法来评估和的公式。在第二部分A中,我们将在FVQ2算法中使用同样的结果。在这种情况下的开发必须在连续迭代中小于0.00001。
FVQ2目标函数=2.19022, 1.55145,1.29068, 0.94758, 0.73473, 0.64221, 0.57287, 0.52184,
0.48639, 0.4
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[22797],资料为PDF文档或Word文档,PDF文档可免费转换为Word