登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 电子信息工程 > 正文

汉语语音合成韵律控制方法仿真分析研究毕业论文

 2021-03-14 21:41:25  

摘 要

语音合成技术是通过机械的、电子的方法产生人造语音,以实现人机多媒体通信及人工智能所必需的的关键技术。随着语音合成技术的告诉发展。单个字发声的语音合成程序在轻重音和自然度方面有了更高的要求,这就要求语音合成技术应在较短的时间里利用已有的标注的语音数据训练出符合要求的声学模型,从而搭建出一个满足自然度需求的合成系统。本文针对这种新的要求,以HMM为基础,运用已有的汉语模型字典的数据库,对汉语语音的自然度进行了深入而系统的研究。

本文根据隐马尔科夫模型的原理,通过分析HMM训练流程中的三个基本模型,对基于隐马尔科夫的自动切分技术进行了改进,进而组建了一个基于HMM的汉语语音合成系统。在研究过程中对中文分词算法进行了深入研究,并自行设计了一个基于Viterbi算法的Python程序,可自动对输入的中文序列进行符合语言逻辑的切分。实验结果表明,该方法可有效地提升切分的自然程度。利用微软自带的TTS(Text-to-Speech)引擎完成了语音库的设计、标注,对汉语语音自然度进行了重建。随后,利用Matlab的录制功能录制一段女生的自然语音,最后利用Praat语音分析软件,对自然语音和由计算机产生的合成语音进行基频提取和测试对比,分析自然音与合成音在频谱上的不同。实验结果显示,基于隐马尔科夫模型的汉语语音合成系统可以有效地提升合成语音的自然度。

关键词:语音合成;自然度;隐马尔科夫模型;汉语模型字典;中文分词

Abstract

Speech synthesis technology is through the mechanical, electronic methods to produce artificial voice, in order to achieve human-computer multimedia communications and artificial intelligence necessary for the key technology. With the development of speech synthesis technology. Single word vocal speech synthesis program in the light stress and natural degree has a higher demand, which requires speech synthesis technology should be in a short time using the existing voice data marked with the requirements of the acoustic model, So as to build a meet the natural needs of the synthetic system. In this paper, based on HMM, this paper makes an in-depth and systematic study of the naturalness of Chinese speech by using the existing database of Chinese model dictionaries.

Based on the principle of hidden Markov model, this paper improves the automatic segmentation technology based on Hidden Markov by analyzing the three basic models in HMM training process, and then sets up a Chinese speech synthesis system based on HMM. In the course of the study, the Chinese word segmentation algorithm is studied deeply, and a Python program based on Viterbi algorithm is designed to automatically compute the input Chinese sequence in line with the language logic. The experimental results show that the method can effectively improve the natural degree of segmentation. Using Microsoft's own TTS (Text-to-Speech) engine to complete the voice library design, annotation, the natural nature of the Chinese language has been rebuilt. Then, using the recording function of Matlab to record a natural voice of girls, and finally the use of Praat voice analysis software, natural voice and computer generated by the synthesized voice frequency extraction and test comparison, analysis of natural sound and synthetic sound in the spectrum of different experimental results show that the Chinese speech synthesis system based on the hidden Markov model can effectively improve the naturalness of synthetic speech.

Key Words:Speech synthesis; natural degree; hidden Markov model; Chinese model dictionary; Chinese word segmentation

目 录

摘 要 I

Abstract II

第1章 绪论 1

1.1 研究的目的及意义 1

1.2 国内外发展及研究现状 1

1.3本文研究内容 3

第2章 HMM在语音合成中的应用 4

2.1 隐马尔科夫模型的定义 4

2.2 隐马尔科夫模型的三个基本问题和算法 6

2.2.1隐马尔科夫模型的三个基本问题 6

2.2.2 前向-后向算法 7

2.2.3 Viterbi算法 8

2.2.4 Baum-Welch算法 9

2.3 本章小结 10

第3章 汉语语音合成韵律控制方法研究 11

3.1 HTS语音合成 11

3.2 HMM模型在中文分词中的参数设置 12

3.3中文分词详细实现方案 13

3.4梅尔倒频谱系数提取原理 15

3.5 本章小结 18

第4章 基于HMM的汉语语音合成系统的实现 19

4.1系统搭建的环境和工具 19

4.2利用Python软件组建中文分词模块 19

4.3基于HMM模型的中文分割算法的优点 20

4.4 HMM模型运用于语音合成的优势 21

4.5 语音合成训练阶段特征参数的提取 22

4.5.1 梅尔倒频谱参数提取 22

4.5.2 基于倒谱法的基音周期计算 23

4.6中文语音合成平台的搭建 25

第5章 合成语音与自然语音的效果比较 27

5.1主观听辨实验结果 27

5.2 比较自然语音和合成语音的客观参数 27

第6章 总结与展望 31

6.1 本文工作总结 31

6.2 语音合成未来的发展方向 31

参考文献 33

致 谢 34

第1章 绪论

1.1 研究的目的及意义

随着信息时代的到来以及飞速发展,短短数十年的时间,计算机就已成为人类不可缺少的工具之一。在早期的人机交互中,主要是通过人类从键盘输入命令再由计算机执行,为了使人机互动更加方便快捷,若干操作简单,交互快捷的操作界面被开发出来,其中最为自然且公认前景大好的界面首推语音交互界面。同时,基于自然语言理解的人机语言对话交互也是当今世界公认的一个难度极高的领域,目前仍处于开发测试阶段,但显然的是,它的前景将十分光明。近些年来,语音识别、语音合成技术以及与其相关的语音学、语音感知进展较大,加上全球高新产业对语音交互的持续关注和研究,这为人机语音交互的实现提供了良好的环境和基础。

目前有限词汇的合成成果已经成熟,无限词汇的语音合成也基本研究成功。然而这些系统合成音及语句的自然度相对较低,人们听起来仍会感到不舒服,从而不能大量投入日常使用。本次研究的目的在于寻找一种可以有效地调节合成汉语语音的韵律,提高连续语音的自然度,使语音的表现力得到丰富,而不是单纯的“机械音”。

作为人类与机器进行交互的关键,语音合成和语音识别这两项技术可以分别教会电脑具有“说”和“听”的能力,这两项技术的发展对未来人机交互起着至关重要的作用,因此已成为众多高新科技公司开拓现代信息产业所必需掌握的核心领域。随着计算机技术,数字信号技术的快速发展,语音合成已完成基础的每个单词单独发音的环节,并在HMM算法,神经网络算法等技术的支撑下正逐步改善合成语音的自然度,以增强合成语音在日常生活中的运用范围。和语音识别相比,语音合成技术发展的相对成熟,适用的范围也更广。

1.2 国内外发展及研究现状

语音合成技术发展到今天已经有200多年的历史,但真正进入可应用阶段是自计算机技术被发展起来之后。现在较广使用的语音系统是根据人类言语功能的不同层次所划分的3个层次,它们是:(1)从文字到语音的合成(Text-To-Speech);(2)从概念到语音的合成(Concept-To-Speech);(3)从意向到语音的合成(Intention-To-Speech)。从目前的语音合成水平和人类对大脑的高级神经活动的了解来说,目前对机械语音的研究只能停留在从文字到语音的合成阶段,即文语(TTS)转换,如图1.1所示。

图1.1 语音合成的各个阶段

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图