基于DTW算法实现对英文字母的语音识别文献综述
2020-04-29 18:52:14
随着人类科学技术的不断发展,人和设备的之间的关系相比以前发生了很大的变化,这体现在人们希望利用某些信号控制机器设备。语音是一种非常常见的信号。语言的声学表现形式包含人类的语音,我们希望通过语音信号来控制机器即要使机器听懂人的语言,就需要做很多工作。这就是研究了几十年的语音识别和语音合成技术[1]。基于语音处理技术发展迅速,并且在各个方面应用广泛,本次毕业设计对语音处理中有重要作用的DTW算法进行研究。本次毕业设计题目为基于DTW算法实现对英文字母的语音识别,目的是利用DTW算法实现对引英文字母的识别,语言是人类最重要的交流工具,因为它自然方便、准确高效。
1.1研究目的
本次毕业设计的研究目的是详细研究DTW的基本原理,同时基于DTW算法实现对英文字母的识别,并对语音处理的各个部分进行研究,包括语音录入、预处理、训练、识别及结果输出等进行分析。
1.2国内外研究现状分析
近年来针对少资源语言的语音关键词检出技术受到了国内外研究机构的广泛关注。语音处理技术在国外研究开始较早,其中DTW算法就是由一位日本的科学家提出。在20世纪70年代以前,语音识别的研究特点是以孤立词的识别为主。在语音编码中运用了线性预测编码技术,线性预测编码技术是通过选定合适的距离测度,在频谱参数的基础之上,最大限度地把它的功能应用到语音识别系统里面[2]。
20世纪80年代前后,几位科学家通过对矢量量化码本生成的研究将提出新的算法,即各种连接词语音识别算法。在80年代末期,出现了一种具有重要意义的隐马尔科夫模型(HMM)技术[3]。美国卡内基梅隆大学开发出的VQ/HMM工具有识别几千个词的非特定人连续语音识别系统,这是世界上首个具有高性能,并且能够基于非特定人、大词汇量的连续语音识别系统[4]。之后,人们将神经网络应用到语音识别当中,这极大的推动了语音识别技术的发展。
国内则对语音识别方面的研究非常重视。我们国家很早就对这方面就开展了相应的研究,在上世纪50年代就开始利用电子管电路来对元音进行识别,到了70年代中国科学院也加入到了这一研究领域,并且利用计算机进行语音识别的研究。从90年代开始,随着社会的发展,大量企业也加入到了这一研究领域,他们用各种各样的方式方法,从最开始的特定说话人、词汇量很小的孤立词进行语音识别,到后来发展成为非特定说话人,词汇量很大的语音识别研究。目前,国家在语音识别方面的巨大投入取得了很大回报。例如,我国开展了国家“863”计划,由国内的顶尖大学、科研机构联合开发,其基础研究涉及到了汉语语音学、听觉模型人工神经网络、小波变换、分形维数和支持向量机等理论,这些研究成果在一定程度上促进了我国语音识别技术的发展,为我国的科技发展起到积极的作用。
目前,实现小词汇量语音识别系统可靠的方法是进行孤立词语音识别,虽然孤立词语音识别相对其他的语音识别系统相对完善,但在实际的应用中仍然有较大的问题。
一 系统在面对环境变化时的稳定性:环境噪声广泛存在易造成训练与测试环境不匹配, 致使系统性能严重下降。
二 系统词汇的变化。生活中, 每天都会有大量新词汇产生, 这导致模型训练和识别难度加大, 系统识别能力下降[5]。