基于LSTM的语音合成方法研究与实现毕业论文
2021-11-06 23:13:47
摘 要
本文借助Tensorflow2机器学习框架,对Tacotron2中提出的基于LSTM的端到端语音合成方法进行了研究和重现,并针对其训练速度、合成效果等多个方面进行了研究。
论文主要研究了该LSTM合成方法的实现和合成效果,并对Tacotron2中LSTM网络自回归时仅支持每次一帧进行改进,使其支持每次多帧,同时针对多帧预测对模型的影响和最终效果进行了评估。将模型在小数据集上进行测试性训练,采取正确率与人工试听两种方式评判模型效果。最终成功构建了可用的语音合成模型,同时通过对比实验发现使用较少帧数的多帧预测可以在保证模型合成效果的基础上,对模型的训练速度进行一定的优化和提升。结果表明,基于LSTM的端到端语音合成方法在适配多帧预测后,能够以更快的训练速度和合成速度完成语音合成任务,这将是该方法对大规模合成任务适用的关键。
关键词:深度学习;LSTM;端到端神经网络;注意力机制;编码-解码框架
Abstract
In this paper, we used Tensotflow2 as a learning framework to study and reproduce the end-to-end speech synthesis method based on LSTM proposed in Tacotron2. At the same time, we research on its training speed, synthesis effect and other aspects.
The research mainly studied the code implementation and synthesis effect of the speech synthesis method, and improved the situation that the LSTM network used in Tactron2 only supports one frame during autoregression. The model is trained on a small data set, and the synthetic effect is evaluated by two methods of accuracy and manual verification. Finally, the work makes it support multiple frame during autoregression, besides, we evaluated the impact and final effect of multiple frame prediction on the model. Finally, we successfully constructed a usable speech synthesis model. Simultaneously, through the comparison of multiple experiments, we found that using multi-frame prediction with fewer frames can optimize and improve the training speed of the model on the basis of ensuring the model synthesis effect. The results show that the end-to-end speech synthesis method based on LSTM can complete the speech synthesis task with faster training speed and synthesis speed after adapting multi-frame prediction, which will be the key to the application of this method for large-scale synthesis tasks.
Key Words:Deep Learning;Long Short-Term Memory;End-to-end learning;Attention Mechanism;Encoder-decode
目录
第1章 绪论 1
1.1 研究背景及意义 1
1.2 语音合成研究现状 1
1.3 研究目的与内容 3
1.4 研究方法 3
第2章 相关理论 4
2.1 梅尔频谱 4
2.2 LSTM 4
2.3 编码-解码框架 5
2.4 注意力模型 5
2.5 端到端神经网络 5
第3章 研究设计与结果 7
3.1 数据流向 7
3.2详细架构与实现步骤 7
3.2.1 整体结构 7
3.2.2 预处理 8
3.2.3 编码器 8
3.2.4 注意力机制 8
3.2.5 解码器 9
3.2.6 后处理网络 10
3.2.7 声码器 10
3.2.8 损失函数 10
3.3 结果与讨论 11
3.3.1 数据集 11
3.3.2 每次预测一帧结果 11
3.3.3 每次预测两帧结果 12
3.3.4 每次预测十帧结果 13
3.3.5 分析与讨论 14
第4章 结论 17
4.1总结 17
4.2展望 17
参考文献 19
致 谢 21
第1章 绪论
本章介绍了语音合成的发展与国内外研究现状,同时对本研究的预期目标进行了简明的阐述。
1.1 研究背景及意义
语音合成是一种将文字信息转换为语音数据的技术,它涉及一系列学科,例如声学、语言学、数字信号处理、计算机科学等等。在日渐高涨的对个性化人机交互功能的需求下,语音识别和语音合成技术是至关重要的。其中,语音合成技术扮演着一个让人们更容易理解机器表达的角色。迄今为止,机器的表达方式经过了电压高低、机器语言、高级编程语言等等,它们都需要一定的、一般人很少接触到的计算机知识或电路知识才能理解。人们迫切需要让机器自己说出易于理解的话语,从而降低人机交互的门槛,使得各种新型技术能够更快地被人们认知和接受,从而达到更迅速的民用化。例如:近年来兴起的使用语音识别和语音合成技术生产的AI语音助手,在给人们提供相应服务的基础上,通过语音交互能够让普通人轻松地获取以往需要通过计算机键盘键入指令才能获取的服务。
科技的进步是为了人类生活的便利,从各种例子和产品中,我们都可以清晰地感受到,语音相关的技术正在不断地渗透我们的生活。但是,无论是语音识别还是语音合成,都还有很多可以挖掘的潜力。例如:对于语音识别速度或是语音合成速度的提升。据调查显示,99.99%的人无法忍受网页打开超过6秒,最佳的体验在1-2秒之间。应用到语音上,也是同一个道理,更快的语音合成速度是该技术能否应用到实际生活中的关键。因此,对于语音合成技术的研究仍是有意义且是必要的。
1.2 语音合成研究现状