基于Neural Network的文本语音转换(TTS)合成系统毕业论文
2021-12-20 21:03:30
论文总字数:29228字
摘 要
近年来,深度学习模型已在计算机应用的许多领域获得了显著的成果。相比之下,由于缺乏适合语音信号的深度学习框架,从而导致无法对语音在机器学习领域进行更深入和透彻的理解。由于语音信号的时域结构的基本特征特性,使语音信号承载了混杂在一起的许多不同专业领域的信息,这使得端到端的深度学习技术在文本语音转换领域的应用更为困难。
目前,文本语音转换系统已经广泛应用于各个领域,如人机互动领域,道路导航系统领域,视力障碍人士的可访问性,媒体以及娱乐领域等。传统的文本语音转换系统已经越来越满足不了人们的需求了,随着科技和人机对话领域的发展,人们对具有更为简单的特征,数量更少的组件,质量更佳的语音以及更人性化的文本语音转换合成系统的需求也更为强烈。因此,我希望通过深度学习技术实现一种更为方便的,更人性化的文本语音合成系统。
本文以Google提出的框架为主通过GE2E loss,Tacotron和WaveRNN三个开源的深度学习框架实现基于Neural Network的文本语音转换合成系统。整个系统分为语音编码器,合成器和声码器三个部分,语音编码器对输入的目标语音进行特征提取,并将之作为嵌入对合成器的参数进行调整,合成器通过语音编码器输入的嵌入和文本特征合成梅尔谱图,再经由声码器还原成音频波形文件输出。并且,输出的合成语音与输入的目标语音的风格相似,相较于一般的文本语音转换合成系统的合成语音的冰冷生硬,基于Neural Network的文本语音转换合成系统的合成语音更加自然,更接近人类。
本文实现的基于Neural Network的文本语音转换合成系统最终的语音合成效果较好,可以合成与输入语音风格相近并且较为自然的语音,同时整个系统的使用也非常方便,但在部分模型框架上仍需要进一步改进和训练。
关键词: 深度学习;神经网络;语音合成;TTS;Tacotron;GE2E;WaveRNN
Text-to-speech conversion (TTS) synthesis system based on Neural Network
Abstract
In recent years, deep learning models have achieved remarkable results in many fields of computer application. In contrast, due to the lack of a deep learning framework suitable for speech signals, it is impossible to have a deeper and thorough understanding of speech in the field of machine learning. Due to the basic characteristics of the time-domain structure of speech signals, the speech signals carry information from many different fields, which makes the application of end-to-end deep learning technology in the field of text-to-speech conversion more difficult.
At present, text-to-speech systems have been widely used in various fields, such as human-computer interaction, road navigation systems, accessibility for visually impaired people, media and entertainment. The traditional text-to-speech conversion system has been increasingly unable to meet the needs of people. With the development of science and technology and human-computer dialogue, people have a stronger demand for simpler features, fewer components, better speech quality and more user-friendly text-to-speech synthesis system. Therefore, I hope to realize a more convenient and humanized text and speech synthesis system through deep learning technology.
In this paper, based on the framework proposed by Google, the text and speech conversion synthesis system based on Neural Network is realized through GE2E loss, Tacotron and WaveRNN, three open source deep learning frameworks. The whole system is divided into three parts: the speech encoder, the synthesizer and the acoustic coder. The speech encoder extracts the features of the input target speech and put them as embedding to adjust the parameters of the synthesizer. The synthesizer synthesizes the mel spectrogram through the embedding of the speech encoder input and the text features, and then returns the mel spectrogram to the audio waveform file for output through the vocoder. In addition, the style of the output synthesized speech is similar to that of the input target speech. Compared with the cold and stiff synthesized speech of the general text-to-speech synthesis system, the synthesized speech of the text-to-speech synthesis system based on Neural Network is more natural and close to human beings.
The text-to-speech conversion synthesis system based on Neural Network realized in this paper has a good speech synthesis effect in the end. It can synthesize the speech that is similar to the input speech style and more natural. At the same time, the whole system is also very convenient to use.
Keywords: Deep Learning; Neural Network; Speech Synthesis; TTS; Tacotron; GE2E; WaveRNN
目录
摘要 I
Abstract III
第一章 绪论 1
1.1课题背景与意义 1
1.2相关研究现状 2
1.3主要工作内容 3
1.4论文组织结构 3
第二章 相关工作与系统设计 5
2.1统计参数语音合成 5
2.2对已有模型框架的研究分析与评估 7
2.2.1 基于隐马尔可夫模型、DNN、RNN的框架及比较 7
2.2.2 基于WaveNet的框架 8
2.2.3 基于Tacotron的框架 9
2.2.4 小结 10
2.3 数据集准备 10
2.4系统设计 11
第三章 系统框架定义及语音编码器的实现 13
3.1系统框架定义 13
3.2 语音编码器 14
3.2.1 语音编码器模型架构 14
3.2.2 广义端到端损失(GE2E loss) 15
3.2.3 语音编码器实现 16
第四章 合成器模型的实现 21
4.1 合成器模型架构 21
4.2合成器的实现 22
第五章 声码器模型的实现 26
5.1 声码器模型架构 26
5.2 声码器模型实现 28
第六章 系统框架整合与评估 30
6.1 系统框架的整合 30
6.2系统框架评估 31
总结与展望 33
参考文献 34
致谢 36
第一章 绪论
1.1课题背景与意义
文本语音转换(TTS)系统是将书面上的文本语言转换为声音学上的人类可听的语言的系统。这其中涉及到的学科种类繁多,例如声学,人类语言学,数字信号处理技术以及通过计算机对文字、声音等多种媒体信息进行处理的技术等。文本语音转换(TTS)系统是信息处理领域的一项前沿技术,TTS是一个将书面文本语言转变为语音并将其输出的过程,它先对输入的书面文本信息进行语言鉴别、字句切分等句子结构分析;同时对书面文本信息正则进行分类与规则替换,目的是将输入的书面文本信息中的数字、标点、变形等特殊符号进行分析处理;接着将书面文本信息通过分词、词性预测等辅助信息分解成音素特征向量;再通过韵律预测来确定输出语音的节奏与抑扬顿挫;最后根据声学模型通过声码器将音素特征向量还原成声音通过扬声器用近似于人的声音将输入的书面文本信息“读”出来。
目前,文本语音转换(TTS)系统被应用于各个领域,如人机互动(HMI)领域、道路导航系统领域、视力障碍人士的可访问性,媒体以及娱乐领域等。传统的TTS系统是基于多态手工设计管道实现的[12](Taylor,2009),这样使得系统的流水线较为复杂。例如统计参数文本语音转换(TTS)系统通常会包含用来提取各种语言特征的文本分析前端,语音持续时长模型,声学特征预测模型和用于处理信号的复杂的声码器。这些组件大都是以广泛且深入的专业领域知识为基础,设计规划起来十分费力,同时这些组件同样是单独训练的,故而每个组件的误差错误可能会累积叠加。综上所述,传统文本语音转换(TTS)系统的设计上的复杂性导致了构建新的文本语音转换(TTS)系统的时候需要大量的工程工作。
请支付后下载全文,论文总字数:29228字