天然TTS合成由调理波网对MEL频谱图进行预测外文翻译资料

2022-08-12 16:10:15

英语原文共 5 页，剩余内容已隐藏，支付完成后下载完整资料

天然TTS合成由调理波网对MEL频谱图进行预测

摘要

本文介绍了一种直接从文本合成语音的神经网络——Tacotron 2。该系统由一个周期性的序列到序列的特征预测网络组成，该网络将字符嵌入映射到梅尔频谱图，然后是一个改进的WaveNet模型作为声码器，通过这些频谱图合成时域波形。我们的模型达到了均值意见得分（MOS）为4.53，相当于专业水平的MOS为4.58的录制的语音。为了验证我们的设计选择，我们提出系统关键组件的消融研究，并评估使用梅尔谱图作为WaveNet的条件输入而不是语言、持续时间和性质的影响。我们进一步证明使用这种紧凑的声学中间表示可以显著减少WaveNet体系结构的大小。

关键词 - Tacotron 2，WaveNet，文本到语音转换

1.引言

尽管经过几十年的研究，从文本（文本到语音合成TTS）生成自然语音仍是一个具有挑战性的任务。随着时间的推移，不同的技术占据了这个领域。衔接合成与单元选择，将预先记录的小单位波形拼接在一起的过程是多年来最先进的方法。统计参数化语音合成，直接产生语音特征的平滑轨迹，再由声码器进行合成，解决了边界伪影拼接合成所带来的许多问题。然而，与人类的语音相比，由这些系统产生的声音往往显得低沉而不自然。

WaveNet是一种时域波形的生成模型，它产生的音频质量开始与真人语音相媲美，并且已经在一些完整的TTS系统中使用。然而，WaveNet的输入（语言特征、预测的对数基频和音素持续时间）需要大量的领域专业知识才能生成，包括复杂的文本分析系统和强大的词典（发音指南）。

Tacotron是一种用于从字符序列生成等级谱图的序列到序列结构，它简化了传统的语音合成管道，将这些语言和声学特征的生成替换为一个单独从数据训练而来的单一神经网络。为了对得到的等级谱图进行编码，Tacotron使用Griffin-Lim算法进行相位估计，然后进行短时傅里叶反变换。设计者指出，这只是未来神经声码器方法的一个占位符，因为Griffin-Lim产生的是有特色的伪信号，而且比WaveNet等方法的音频质量更低。

在本文中，我们描述了一种统一的、完全的神经方法来进行语音合成，该方法结合了之前的方法中的最佳部分：一个序列到序列Tacotron式的模型，它生成梅尔频谱图，然后是一个改进的WaveNet声码器。通过直接训练归一化字符序列和相应的语音波形，我们的模型学会了合成自然发声的语音，这些语音很难与真实的人类语音区分开来。

Deep Voice描述了类似的方法。然而，与我们的系统不同的是，它的自然性还没有被证明可以与人类的语言匹敌。Char2Wav描述了另一种使用神经声码器实现端到端TTS的类似方法。然而，它们使用不同的中间表示（传统的声码器特性），它们的模型架构也有很大的不同。

2.模型架构

系统包含两个组件，如图1所示：（1）引入了注意力机制的一个序列到序列预测网络用于从输入字符序列预测梅尔声谱图帧序列。（2）一个修改版的WaveNet生成时域波形样本条件预测梅尔声谱图帧。

2.1.中间特性表征

在这项工作中，我们选择了一个低水平的声学表现：梅尔频谱图，以桥接这两个成分。使用一种很容易从时域波形计算出来的表示法，我们可以分别训练两个分量。这种表示法也比波形样本更平滑，并且更容易使用平方误差损失进行训练，因为它在每一帧内都是不变的。

梅尔频谱图与线性频谱图是相关的，换句话说，即短时傅里叶变换（STFT）的幅度。它是通过对STFT的频率轴进行非线性变换得到的，其灵感来自于人类听觉系统的测量响应，并总结了更少维度的频率内容。使用这样的听觉频率标度的效果是在低频率强调细节，而低频率对语音清晰度至关重要，而不强调高频细节，因为高频细节主要由摩擦和其他噪声突发组成，通常不需要高保真建模。由于这些特性，来自梅尔标度的特征被用作语音识别的底层表示已经有几十年的历史了。

虽然线性频谱图会丢弃相位信息（因此是有损耗的），但是像Griffin-Lim这样的算法能够估计这些丢弃的信息，从而能够通过反短时傅里叶变换进行时域转换。频谱图抛弃了更多的信息，提出了一个具有挑战性的反问题。然而，与WaveNet中使用的语言和声学特征相比，梅尔频谱图是一种更简单、更低级别的音频信号声学表示。因此，类似的基于梅尔频谱图的WaveNet模型应该可以直接生成音频，本质上就是一个神经声码器。事实上，我们将展示使用改良的WaveNet架构，从梅尔频谱图生成高质量音频是可能的。

2.2.光谱图预测网络

和Tacotron一样，梅尔光谱图是通过短时傅里叶变换（STFT）计算出来的。使用50毫秒的帧大小，12.5ms帧跳转，并有一个Hann窗口函数。我们实验了一个5ms的帧跳来匹配原始波形网络中调节输入的频率，但是相应的时间分辨率的增加导致了更多的发音问题。

我们使用一个从125hz到7.63hz的80通道梅尔滤波器组将STFT量值转换为梅尔刻度，其次是日志动态范围压缩。在进行日志压缩之前，为了限制数域的动态范围，filterbank的输出大小被裁剪到最小值0.01。

该网络由注意编码器和注意解码器组成。编码器将字符序列转换为隐式特征表示，解码器利用该隐式特征表示来预测光谱图。输入字符使用一个512维字符嵌入来表示，该嵌入通过3个卷积层的堆栈来表示，每个卷积层包含512个过滤器，每个过滤器的形状为5x1，即每个过滤器跨越5个字符，然后批量标准化和使用ReLU函数激活。与Tacotron一样，这些卷积层对较长期的上下文进行建模（如在输入字符序列中）。最后一个卷积层的输出被传递到一个单一的双向LSTM层，其中包含512个单元（每个方向256个），生成编码后的特征。

编码器输出被一个注意力网络接收，该网络将整个编码序列总结为每个解码器输出步骤的固定长度上下文向量。我们使用位置敏感的注意力机制，它扩展了附加注意机制，并使用来自先前解码器时间步长的累计注意权值作为附加功能。这鼓励了模型在输入过程中始终如一地向前移动，减少了一些子序列被解码器重复或忽略的潜在故障。将输入和位置特征投影到128维隐藏表示后，计算注意概率。使用长度为31的32个一维卷积滤波器计算位置特征。

解码器是一种自回归递归神经网络，每次从编码的输入序列一帧预测梅尔频谱图。上一时间步的预测首先通过包含256个隐藏ReLU单元的2个完全连接层的小预测网络。我们发现，前网络作为一个信息瓶颈是学习注意力必不可少的。预先输出和注意力上下文向量被连接起来，并通过具有1024个单元的2个单向LSTM层的堆栈传递。通过线性变换将LSTM输出和注意上下文向量串联起来，预测目标光谱图帧。最后，将预测得到的梅尔频谱图通过5层卷积后网络进行处理，该卷积后网络对残差进行预测，并将残差加入预测中，提高整体重构效果。每一个后网络层由512个形状为5x1的过滤器组成，批处理归一化，除最后一层外，其余都是使用tanh函数激活。

我们最小化了网前和网后的平方和误差（MSE），以帮助收敛，我们还通过使用混合密度网络对输出分布进行建模，以避免假设随时间变化恒定，从而实验了对数似然损失，但我们发现，这些训练更困难，而且它们不会产生更好的声音样本。

与光谱图帧预测类似，解码器LSTM输出和注意上下文的串联被投射到一个标量上，并通过一个sigmoid激活来预测输出序列完成的概率。这种“停止令牌”预测用于推理期间，允许模型动态地确定何时终止生成，而不是总在固定的持续时间内生成。具体地说，生成在该概率超过阈值0.5的第一帧完成。

使用dropout对网络中的卷积层进行正则化，其概率为0.5，LSTM层使用概率为0.1的zoneout进行正则化。为了在推理时引入输出变化，退出的概率为0.5只应用于自回归解码器预测网络中的层。

与原始的Tacotron相比，我们的模型使用了更简单的构建块，在编码器和解码器中使用了普通的LSTM和卷积层，而不是“CBHG”堆栈和GRU循环层。我们不使用“减少因子”，即每个解码器步骤对应一个单独的光谱图帧。

2.3.WaveNet声码器

我们使用来自WaveNet结构的修改版本，将梅尔频谱图特征表示转换为时域波形样本，在原有的结构中，有30个膨胀的卷积层，分为3个膨胀周期，即k层的膨胀率（k=0hellip;29）是2^{k (mod 10)}。为了处理频谱图帧的12.5ms帧跳，在调节堆栈中只使用2个上采样层，而不是3个层。

我们没有使用softmax层来预测离散化的桶，而是使用PixelCNN 和并行的WaveNet，使用logistic分布（MoL）的10组分混合来生成24khz下的16位样本。为了计算逻辑混合分布，波形网的输出经过一个ReLU激活，通过线性投影预测各组分的参数（均值、对数尺度、混合权重）。损失计算为地面真值样本的负对数似然。

3.实验与结果

3.1.训练设置

我们的训练过程包括首先对特征预测网络进行单独的训练，然后根据第一个网络产生的输出独立地训练一个改进的小波网。

为了训练特征预测网络，我们使用了标准的最大似然训练过程（在解码器端输入正确的输出，而不是预测的输出，也称为强制指令），在单个GPU批量大小为64。我们用Adam优化器，beta;1 = 0.9, beta;2 = 0.999，ε = 10^-6，学习率在50000次迭代后由10^-3衰减到10^-5。我们还应用了权值为10^-6的L2正则化。

然后，我们将改进后的小波网训练成基于特征预测网络的真值对齐预测。也就是说，预测网络运行在教师强迫模式下，每一个预测帧都以编码的输入序列和与之对应的前一帧为条件。这确保每个预测帧与目标波形样本完全一致。

我们训练一批大小为128的样本，分配给同步更新的32个CPU，优化器使用Adam，beta;1 = 0.9, beta;2 = 0.999，ε = 10^-8，固定学习率为10^-4，它有助于质量平均模型权重超过最近的更新。因此，我们在更新步骤上保持网络参数的指数加权移动平均值，衰减为0.9999–此版本用于推理（也请参阅[29]）。为了加快收敛速度，我们将波形目标放大了127倍。这使得混合层的初始输出更接近于最终的分布。

我们使用了包含24.6小时语音的内部美国英语数据集，它来自一位职业女性演讲者的语音。在该数据集上进行模型的训练，所有的文本在我们的数据集拼写出来，例如：“16”被写成“sixteen”，即我们的模型都是在规范化文本上训练的。

3.2.评价

在推理模式下生成语音时，地面真值目标是未知的。因此，前一步的预测输出在解码时被输入，与用于训练的强制教师配置不同。

我们从内部数据集的测试集中随机选择100个固定的实例作为评估集。在这台机器上产生的音频被发送到一个类似亚马逊的土耳其机器人的人类评级服务，每个样本由至少8个评分者进行评级，从1到5分，其中增量为0.5分，并从中计算出主观平均意见得分（MOS）。每一个评估都是独立进行的，所以当评分者给两个不同的模型打分时，他们的输出并不会被直接比较。

请注意，虽然评估集中的实例并未出现在训练集中，但在两个集合之间存在一些重复出现的模式和常用词。虽然与由随机单词生成的句子组成的评估集相比，这可能会导致一个夸大的MOS，但是使用这个评估集可以让我们与基本事实进行比较。因为我们所比较的所有系统都是基于相同的数据，所以相对比较仍然有意义。

表1显示了我们的方法与各种先前系统的比较。为了更好地分离使用梅尔频谱图作为特征的影响，我们将其与基于语言条件的波形网络进行了比较，并对上述波网结构进行类似的修改。我们还比较了原来的Tacotron预测线性光谱图和使用Griffin-Lim合成音频，以及连接和参数化基线系统，这两个系统都已在谷歌的生产中使用。我们发现，提出的系统明显优于所有其他的TTS系统，并生成一个MOS与真实音频相近的结果。

！！！！！！！！！！！这里缺失一张图片、

表1——从不同系统的t分布计算出92%置信区间的平均意见评分（MOS）评估

我们还对系统合成的音频与地面真值进行了并行评估。对于每对话语，评价者被要求给出一个范围从-3（合成比地面真值差很多）到3（合成比地面真值好很多）的分数。总平均分数为-0.270plusmn;0.155，这表明单个评分者对地面真实数据的偏爱程度虽小，但在统计上显著高于我们的结果。图2给出了详细的分类。评分员的评论表明，我们的系统偶尔出现的发音错误是这种偏好的主要原因。

图2——合成VS地面真值：在100个项目上的800个评级

我们对来自附录E的定制的100句测试集进行了单独的评级实验，获得了4.354的MOS值。在手工分析的误差模式系统独立计算每个类别中的错误，0个句子包含重复的话，6个句子包含发音错误，1个句子包含跳过单词和23个句子在主观上决定包含非自然韵律，如强调错误的音节或单词或不自然的音调。端点预测在单个情况下失败，即在包含最多字符的输入语句上失败。这些结果表明，虽然我们的系统能够可靠地关注整个输入，但韵律建模仍有改进的空间。

最后，我们评估了37个新闻标题生成的样本，以测试我们的系统对域外文本的泛化能力。在这个任务中，我们的模型接收到的MOS值为4.148plusmn;0.124，而基于语言特征的W

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[236702]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码