共振峰语音合成算法研究与实现文献综述
2020-04-28 20:18:25
本次研究的目的熟悉并掌握共振峰合成语音的算法及实现,进一步针对共振峰语音合成的不足提出改进方法并验证改正方法的可行性。同时,也是进一步熟悉MATLAB的过程
实际应用中大部分语音合成系统都集中在基于大规模语料的波形拼接技
术,该技术直接从言库中提取语音单元拼接成所要语音,使得语音质量获得了很大的提高,并有成功的商业化应用。然而,现代应用中要求合成出的语音具丰富的感情色彩,基于波形拼接的方法对韵律的改变能力有限,所合成的连续语流的自然度下降明显。只能借助于增大语音库存量来丰富合成语音的
韵律表现力。但随着合成系统趋向于小型化的发展,此种方法并不适合内存容量有限制的PDA、手机等上的应用。而基于参数模型的合成方法因为合成音质较差面受关注的程度很小。以共振峰为代表的参数合成很好地模拟了人类的语音在频域的产生过程,建立基于规则的语音参数可以得到高可懂性的合成语音。同时对语音参数控制的灵活性使得共振峰合成很容易控制对合成语音自然度影响最大的各种超音段特征(如时长、基频、能量以及音节的共振峰过渡等),可以建立在一个相对较小的参数库基础上就能合成不同人说话的风格来。因此共振峰合成仍有应用的价值和研究的必要。
国内外研究现状分析:
国际上值得提及的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只要精心调整参数,这两个合成器都能合成出非常自然的语音。而最具代表性的文语转换系统数美国DEC 公司的DECtalk(1987),该系统采用Klatt的串/并联共振峰合成器,可以通过标准的接口和计算机连网或单独接到电话网上提供各种语音信息服务,它的发音清晰,并可产生七种不同音色的声音,供用户选择。但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。
国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。国内系统基本上都是采用基于PSOLA方法的时域波形拼接技术,其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其它语种的文语转换系统一样,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术的大规模进入市场本次研究的目的是熟悉并掌握共振峰语音合成的基本原理、共振峰语音合成方式、共振峰参数的提取以及如何用共振峰合成声道模型等。
在现代生活应用中要求合成出的语音具丰富的感情色彩,基于传统波形拼接的方法对韵律的改变能力有限,使得所得到语音自然度下降明显,只能通过增音库存量来丰富合成语音的自然度。但是,此种方法并不适合内存容量有限制的PDA、手机等上的应用。在此基础上,以共振峰为代表的参数合成很好地模拟了人类的语音在频域的产生过程,建立基于规则的语音参数就可以得到高自然度的合成语音。同时共振峰语音合成通过对语音参数进行控制,就可以很容易控制对合成语音自然度影响最大的各种超音段特征,可以建立在一个相对较小的参数库基础上就能合成不同人说话的风格来。因此用共振峰合成来增强语音自然度仍有应用的价值和研究的必要。