共振峰语音合成算法研究与实现毕业论文
2020-04-12 14:24:45
摘 要
人类是群居动物,人类和动物最大的不同就是人类发明了文字,有了文字之后人与人之间就可以进行交流,人和人之间最常用的交流方式就是语言交流。在语音系统的研究初期,人们关注的是语音词汇是否能够无误发送和接收;随着语音系统的发展,人们关注的不仅仅是语音传达是否无误,也对语音信号中蕴含的情感信息提出了新的要求。本文的研究目的是利用共振峰语音合成原理来合成自然度高的语音。本次研究在MATLAB语言环境下进行,使用共振峰合成原理,最后达到输入一段信号就会输出一段高自然度语音的效果。具体内容包括共振峰语音合成的基本原理、共振峰参数的提取以及如何用共振峰合成声道模型来最终实现语音合成。在本次设计中,通过对共振峰语音合成原理及相应代码的进一步学习,最终实现了输入一段语音信号,在输出端清晰的得到了语音信号的具体内容和相应波形。通过本次设计,我明确了通过共振峰语音合成的方式是可以得到高自然度的语音信号的,同时对共振峰语音合成的原理和实现方法有了进一步的了解。
关键词:共振峰、线性预测、语音合成
Abstract
Speech signal is an important way for people to communicate with each other, while the traditional voice system only cares about whether the speech words can be accurately conveyed, but not the emotional information contained in the speech signal. The purpose of this paper is to extract the appropriate formant parameters by selecting the appropriate resonant peak synthesis channel model, and thus realize the synthesis of high natural speech by using the resonance peak. This study was carried out in the MATLAB language environment, using the resonance peak synthesis principle, and finally the input of a signal will output a high natural speech effect. The specific content includes the basic principle of resonant peak speech synthesis, the extraction of formant parameters and how to use the resonant peak synthesis channel model to achieve the final speech synthesis. In this design, through to the formant speech synthesis principle and corresponding code for further study, finally achieved a voice signal input, on the output side clear got the specific content of the speech signal and the corresponding waveform. Through the design, the way I made clear through the formant speech synthesis is can get high naturalness of speech signal, the principle and realization of formant speech synthesis method have further understanding.
Keywords: formant synthesis; linear predictive coding; formant syntheses;
目 录
第一章 绪论 1
1.1 语音合成概述 1
1.2 共振峰语音合成的发展现状 2
1.3 语音合成的发展方向 2
1.4本文的主要内容 3
第二章 基音周期的估算 5
2.1 引言 5
2.2 基音周期的估算方法 5
2.2.1 倒谱法的基音检测 5
2.2.2 短时自相关法的基音检测 5
2.2.3 短时平均幅度差函数的基音检测 6
2.3 基音周期的改进算法———主体-延伸法 6
第三章 语音合成技术比较 8
3.1 共振峰语音合成 8
3.1.1 共振峰语音合成基本原理 8
3.1.2 共振峰参数的提取方法 8
3.1.3 共振峰语音合成的声道模型 10
3.2 线性预测(LPC)参数合成法 13
3.3 PSOLA算法合成语音 13
3.4 LMA声道模型 13
第四章 共振峰语音合成实验系统 14
4.1 引言 14
4.2 语音合成方式选择 14
4.3基音周期提取的具体实现 15
4.4 共振峰系数提取的实现 15
4.5 共振峰语音合成的总体实现 15
4.6 实验合成效果及分析 28
第五章 总结及展望 29
5.1 总结 29
5.2 个人展望 29
参考文献 30
致谢 31
第一章 绪论
1.1 语音合成概述
所谓语音合成,也就是所谓的Speech Synthesis,通俗的说便是人为的利用各种算法来制造出语音。正是因为有了语音合成,才使得人们在和计算机的通信中更简单、方便、直接,语音合成实际上就是通过技术手段,让计算机拥有类似人类的发音功能。也就是解决如何让机器像人一样说话的问题。即既能让机器发出清楚的音节,同时也带有人类语音的感情色彩。所以语音合成要做的工作有两个:一是获得清楚的音节发音,另一个是将语音信号中的情感信息提取出来。近代以来计算机技术和网络通信技术飞速发展,人们便开始研究如何赋予机器“人类嘴巴”的功能。从60年代开始,各国的语音从事者们就着手研究各自语言的语音合成。因为受各国经济水平发展的限制,以至基于英语的语音合成系统最先被开发出来并投入使用,在有人吃到螃蟹过后,各国也不甘示弱,纷纷开发出基于自己语言的语音合成系统。当今世界,任意形式的语音合成同可以通过相应技术手段来实现。所以现在让机器拥有人类一样的发音不再用“会说话的机器”来表述,而是用语音合成这一术语表达[4]。
语音合成的另一种叫法是文语转换,也就是所谓的Text To Speech,指的是先把文本文件使用软硬件转换成计算机或者语音系统能理解的东西,然后由计算机或语音系统将合成输出到输出端,供有需求的人使用的过程,在这个进程中,应尽可能使合成的语音有良好的自然度和可懂度。若是语音合成只是将一个个单字的发音做简单的拼接,这样会使得合成得到的语音有很浓重的机械味道,也就是所谓的极度缺乏自然度。在我们的日常交流中,我们所说的话中的任何一个字都跟它前后相邻的字的发音声调有关。因此在进行文本转换以前,必需做的一步是先对文本进行剖析,按照上下文的关系来明确每个字发音声调将会怎么变化,并将这些声调转换做好记载,末了用这些声调转变参数去把握语音合成[1,3]。
制造一种会讲话的机械工具是研究语音合成的目的,其实质便是使一些以文本或者是其他形式表示或存储的信息能转换为语音,从而可以通过物理媒体播放出来,从而可以让人们快速方便的获取信息。语音合成体系是单向体系—由机械到人。总体来说使用语音合成来传递语言中所包含的信息有以下特点:①不需要专门的训练,大家都可以轻松理解其中的含义;②可以利用现成的电话通信网络;③无需消耗纸张等资源。故此语音合成可以应用在诸多领域,例如:文语转换、自动报时、报警、公交车自动报站、语音咨询应答体系、打印成书的过程中文本校对等。在诸多英语领域里面,语音合成已经取得了良好的社会效果,综合来看语音合成具有良好的发展前景。
1.2 共振峰语音合成的发展现状
国际上共振峰语音合成技术最早趋于成熟并且被大家所知道的是并联共振峰合成器,该合成器是Holmes公司在1973年研发成功的,在Homes之后,Klatt在1980年也研发成功了串/并联共振峰合成器。使用Holmes和Klatt公司的共振峰语音合成技术,只要有合适的参数设置,基本上得到的合成语音的自然度和可懂度都比较高。DECtalk技术是美国DEC 公司于1987年提出的,是目前为止国外共振峰语音合成最具有代表性的技术之一,DECtalk技术采用的Klatt公司的串/并联共振峰合成器,DECtalk技术可以连接到互联网和电话网上进行使用。合成语音自然度高,而且可以产生7种音色供用户选择是该合成方式的优点。合成语音的整体音质始终难以达到人们的日常生活要求是这种方法最大的缺点,技术是不是真的好用只能通过实践来证明,在使用DECtalk的过程当中,人们也明白了一点,那就是语音信号千变万化,不同发音人在不同环境下所产生的语音是完全不一样的,这就导致了用一套方法来提取所有的共振峰参数是不太现实的,而如果不能提取到准确的共振峰参数(频率和带宽),自然通过共振峰合成技术也就无法得到自然度高的语音。
国内对汉语语音合成的起始时间要比国际上的一些发达国家晚,但自1987年国家863计划实施开始,国内的语音合成技术就慢慢的国际上研究接轨了。国家863计划专门为语音识别技术进行立项,并且每2年滚动一次。到目前为止,国内的语音合成技术已经基本上与国外同步,并且针对汉语语音识别这一块有自己的优势和见解,达到了国际语音合成先进水平。现在我国已经自主研发了专门的语音芯片识别系统,该芯片包括了语音识别、编码和合成系统,该芯片的识别率超过了百分之九十五,目前该技术已经运用到了语音玩具、电话通话等各个方面,汉语语音合成的发展前景也是一片光明。
1.3 语音合成的发展方向
当今时代,计算机技术和网络通信技术正处在飞速发展的阶段,而随着计算机技术和网络通信技术的进步,无疑会带动语音合成向着更好的方向发展,总的来说,今后的语音合成主要有以下几个发展方向:
① 使合成语音的自然度得到提高。
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: