基于DTW算法实现对英文字母的语音识别毕业论文

2020-04-12 08:45:06

摘要

语音是人类交流的最为重要的工具，绝大多数情况下人们采用语音的方式表达自己的目的。随着科技的不断发展，人们已经不单纯满足于只用语音进行交流，更希望于我们可以用语音指令来控制各种机器，让这些机器可以明白我们的指令。因此，需要我们了解语音识别技术的原理并将其应用到各个方面。

目前对于孤立词的识别大多数采用的是动态时间规整算法（DTW）。其核心的思想是将参考模板和测试语音信号进行模式匹配。因其在适用于孤立词识别时相对其他算法具有更加简单，识别正确率更加高的优点。本文在基于DTW算法的基础上实现对单个英文字母的识别，主要做了以下的研究工作：

利用matlab编写代码完成对输入语音的预处理，其中包括分帧、预加重、利用短时能量和短时过零率进行端点检测。

DTW算法则由其计算累积距离的原理并利用matlab代码实现。

特征参数采用梅尔倒谱系数（MFCC）。目前MFCC是被采用最多的特征参数，因其可以充分表现人耳的听觉特性，并且在较低的信噪比的情况下也能实现较好的识别功能。

在识别模块先计算参考模式库中的全部模板的特征矢量，然后计算测试部分的音频的特征向量，之后利用DTW算法将测试部分特征向量和参考模式库中的特征向量逐一计算累积距离，选择累积距离最小的那个作为最后的识别结果。

最后尝试对带有噪音的语音进行增强之后进行识别。

关键字：语音识别、预处理、动态时间规整（DTW）、梅尔倒谱系数（MFCC）

Abstract

Human use the voice as the most important tool to communicate with others. And they also use voice to express their purpose in most cases. With the continuous development of science and technology, people are not only satisfied with using only voice to communicate, but also hope that we can use voice commands to control various machines so that these machines can understand our instructions. This requires applying the principles and techniques of speech recognition to all aspects.

At present, most of the algorithms adopted for the recognition of isolated words are dynamic time warping algorithms (DTW), and the core method is to use pattern matching. Because it is relatively simple compared to other algorithms when it is applied to isolated word recognition, the recognition accuracy rate is higher. In this paper, based on the DTW algorithm to achieve the recognition of a single English alphabet, the main research work done in the following:

The use of matlab to write code to complete the input speech preprocessing, including frame, pre-emphasis, using short-term energy and short-term zero-crossing rate endpoint detection.

DTW algorithm is calculated by the principle of its cumulative distance and using matlab code.

We choose the Mel Cepstrum coefficient (MFCC) as the feature parameter extraction. At present, MFCC is the most used characteristic parameter, because it can fully express the auditory characteristics of the human ear. Besides, it can also achieve better recognition function in the case of a lower SNR.

Using the characteristic parameters in the reference pattern library and the audio feature parameters of the test part, then the DTW algorithm is used to compare the cumulative distance of the reference pattern library with the cumulative distance of the test part, and the smallest distance is the recognition result.

Finally tried to identify the voice with noise after enhancement.

Key words: Speech Recognition, Preprocessing, Dynamic Time Warping (DTW), Mel Cepstrum Coefficient (MFCC)

摘要 I

Abstract II

第1章绪论 1

1.1 课题研究的背景及意义 1

1.2 DTW算法的研究现状 2

1.3 论文的主要工作及内容安排 3

第2章语音信号的分析以及特征参数的提取 4

2.1语音信号的时域分析 4

2.1.1语音分帧 4

2.1.2 短时能量分析 5

2.1.3 短时过零率分析 5

2.1.4 短时相关分析 6

2.2 语音信号的频域分析 6

2.2.1 短时傅里叶变换 6

2.2.2功率谱 6

2.3 语音处理阶段的关键技术 7

2.3.1 语音端点检测 7

2.3.2 语音信号的数字化和预处理 7

2.4 特征参数提取 8

2.4.1 语音信号倒谱分析 8

2.4.2 梅尔倒谱系数 8

2.6 本章总结 12

第3章算法理论 13

3.1 DTW算法 13

3.1.1 DTW算法原理 13

3.1.2 DTW算法的训练 15

3.2 利用DTW的语音识别流程 15

3.3 DTW算法HMM以及神经网络的简单比较 15

3.4 本章小结 16

第4章语音识别系统的设计与实验 17

4.1 语音识别系统的总体流程图 17

4.1.1 语音录入与分帧加窗 17

4.1.2 计算语音信号的短时过零率 19

4.1.3 计算语音信号的短时能量 19

4.1.4 语音信号端点检测 20

4.1.5 降噪处理 22

4.1.6 特征参数提取 24

4.1.7 DTW算法实验 24

4.2 本章小结 27

第5章总结与展望 29

5.1 总结 29

5.2 展望 29

参考文献 31

致谢 33

第1章绪论

1.1 课题研究的背景及意义

人类绝大多数的交流依靠语言交流完成。利用语言，人类可以精确表达自己的意愿和对事物的理解。自工业革命以后，机器开始大规模进入人的生活。进入20世纪以后，计算机的出现使得对复杂信号的分析成为现实。到了20世纪中期，语音信号的研究开始受到人们的重视。自此，人类希望和机器通过语音进行交流的愿望开始逐步变为现实，而语音识别技术作为人类与机器进行交流的桥梁，开始受到广泛关注，同时人工智能的发展也使得语音识别的发展更加迅速^[1]。语音识别是指利用机器将获得的语音信号进行数字化处理，进而通过某些特征参数然后对其进行分析，然后转换成特定的文本和命令^[2]。人类的发声原理、语言学、语音学等都在语音识别技术中发挥着很重要的作用。美国贝尔实验室最先提出语音识别，并且依靠强大的科技实力开发出全球第一个语音识别系统。但由于语音识别研究存在很大的技术难题，比如每个人的发音特点都已不一样，甚至在不同环境中同一个人的发音也可能出现很大差别，所以语音方面的研究发展相对缓慢。之后由于计算机的快速发展并且计算机对于语音的处理能力大幅增强，使得语音识别技术的研究也实现巨大突破。

国外在语音方面得研究开展较早，有很多研发实力非常强大，并且技术储备十分充足的公司。其中Nuance公司是全球规模最大的语音公司。其在语音识别方向具有强大技术储备即专利技术储备。比较有代表性的比如其开发的声纹鉴别技术。因每个人的声纹类似指纹，人群之中虽有一样的，但是概率极其小。因此可以利用声纹来进行语音识别^[3]。另外苹果耗巨资收购的Siri也是很有代表的公司。Siri已经被苹果整合到IOS系统。Siri不仅拥有精确的语音识别和先进的语音合成技术，而且苹果公司将人工智能应用到Siri使得Siri在语义识别方面也相当出色。这些都保证了用户良好的使用体验。另外，微软开发的深度神经网络的应用^[4]，也间接使得语音识别的研究更进一步。

我国的语音识别研究起步较晚，但由于国家的大力投入，也取得了较好的成果，有代表性的是中国科学技术大学，清华大学、上海交通大学、北京大学等，它们都在语音识别研究方面取得了不俗的成绩。国内最有代表性的研究语音处理的公司应属科大讯飞公司。该公司在国家大量资金注入和中国科学技术大学的技术支持下，发展迅速。其在语音识别的研究，有关语音的软件和硬件在产品开发方面均取得很大的成绩^[5]。尤其是在中文语音识别，合成等方面成果突出。另外，其在人工智能应用于语音识别方面的研究也在国内甚至国际上达到领先的水平。

目前，语音识别的研究热点已经转移到利用HMM或者神经网络的技术实现对连续的大词汇量和连续语句的识别。例如腾讯公司目前作为国内最成功的开发社交软件公司，连续语句的识别以及语义识别的技术对其来说至关重要。而实现连续语句的识别最好的办法就是将神经网络或者深度神经网络应用到识别过程中。但是我们同样可以看到，语音识别被大量应用于手机移动终端设备和工业设备当中，而这些设备在语音交互中对于孤立的词汇的识别的需求较连续语句的识别更大。比如大量公司在将孤立词语音识别技术应用于工业机器命令的控制以及个人移动通信呼叫等方面^[6]。因此，虽然目前语音识别的热点不在孤立词，但孤立词识别在控制指令和识别准确率上又具有较大的优势^[7]。所以其依然具有很大的研究价值。

动态时间规整（DTW, Dynamic Time Wrapping）算法以其原理简单，数据处理较少，成为研究孤立词识别中常用的算法。

以上是毕业论文大纲或资料介绍，该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取，微信号：bysjorg。

注册

找回密码