倒普分析在语音识别的应用研究毕业论文
2020-02-17 23:24:54
摘 要
本文借助数据处理和信号分析软件MATLAB来尝试研究语音信号的基础处理方法和过程,着重于分析利用倒谱分析法提取语音信号特性参数的方法和优缺点,以及对语音识别的性能的影响。
文章首先阐述语音信号处理和语音识别的基本概念,讲述它们的发展历史以及现状。然后通过利用MATLAB软件对内容为数字0的一段语言的基础简单分析,来说明MATLAB在信号处理中的作用和处理方法。然后介绍了语音信号的LPC、LPCC和MFCC参数的区别,并着重讲述倒谱MFCC的获取方式和用于语音识别中时的优缺点。最后用MATLAB软件建造语音识别程序,通过对简单数字语音的识别的描述,说明语音识别的一般过程和简单方法。并验证倒谱分析在提高语音识别系统的性能上的巨大贡献。
关键词:倒谱分析;语音识别;MATLAB;数字信号处理
Abstract
This paper uses the signal analysis software MATLAB to study the speech signal processing, introduces the advantages and disadvantages of the MFCC feature parameters, and the impact on the performance of the speech recognition system.
First of all, it introduces the basic concepts, development history and current situation of speech signal processing and speech recognition. The MATLAB software is then used to analyze the speech signal in order to illustrate the role of MATLAN in digital speech signal processing. Then, the three characteristic parameters of LPC, LPCC and MFCC of speech signal are introduced, and the advantages and disadvantages of Mel frequency cepstrum parameter MFCC in speech recognition system are described. Finally, a speech recognition system based on MATLAB software is built. The general process and basic methods of speech recognition are introduced through the recognition of simple digital speech. And verify the contribution of cepstrum analysis to improve the performance of speech recognition systems.
Keywords:cepstrum analysis;speech recognition;MATLAB;digital signal processing
目 录
第1章 绪论 1
1.1 研究背景 1
1.2 研究意义 1
1.3 主要研究内容 2
第2章 语音识别概述 3
2.1 语音识别技术的概念与发展历史 3
2.1.1 概念介绍 3
2.1.2 发展历史 3
2.2 语音识别的基本方法 4
第3章 倒谱分析概述 6
3.1 倒谱分析的概念 6
3.2 倒谱分析MATLAB实现 6
第4章 MATLAB语音信号处理的过程 8
4.1 MATLAB软件介绍 8
4.2 MATLAB进行语音信号处理的一般过程 8
4.2.1 采集语音信号的方法 8
4.2.2 语音信号的读取和播放 9
4.2.2 语音信号的时间域和频率域分析 9
4.2.3 给信号加入噪声 11
第5章 MATLAB搭建简单语音识别系统 12
5.1 MATLAB环境的配置 12
5.2.信号采集模块 13
5.3信号预处理模块 14
5.3.1 分帧处理 14
5.3.2 预加重 14
5.3.3 加窗与端点检测 15
5.4 MATLAB提取倒谱特征 17
5.4.1 LPC和LPCC系数 17
5.4.2 MFCC系数 18
5.4.3 创建提取MFCC倒谱特征的MATLAB程序 18
5.5 语音信号识别的DTW算法模块 18
5.6 GUI界面的设计 19
5.6.1 GUI界面概述 19
5.6.2 GUI的创建 19
第6章 结论与展望 21
参考文献 22
致谢 23
第1章 绪论
1.1 研究背景
在我们这个信息技术工业革命即将爆发的时代,各个领域的科学技术的发展速度快到出乎普通人的意料,这是数以万计不同领域的科学家和工程师努力奋斗出来的结果。为了抢占科技前沿获得话语权与竞争优势,为了开发出最新的引领潮流的科技产品从而获得经济利益,我们必须自力更生掌握关键的核心科学理论与核心技术,走在人类创新发展的最前沿。
就在不久的之前人类还在怀疑能不能丢弃鼠标、键盘和各种按钮,而直接用语言控制机器完成自己想要的操作。今天,随着以人工智能和深度机器学习等为代表的最新的智能技术的发展,语音识别早已经不再神秘,而是成为智能产品的必备功能。而且人们对机器智能的要求越来越高。例如,小米手机用“小爱同学”唤起语音交互功能之后,用户可以直接告诉手机自己想要的操作,可以播放音乐、打电话给某个人、预订一个闹钟、让手机自动关机、甚至是让手机去讲一个笑话或者人与手机之间展开聊天。市场上还有许许多多的其他的具有语音交互功能的产品,例如在人工智能领域走在国际前列的百度公司刚刚发布的智能产品”小度”,可以根据主人的语言决定自己的工作,可以自动查到晚上要做的菜的菜谱,可以根据听到的语言播放歌曲,可以自动的拨打电话。无人驾驶技术是当前社会的热门话题,全世界众多著名的科技类公司都在努力研究属于自己的智能汽车无人行驶技术,企图占据科技发展的最高点,率先抢占到尽量大的市场。例如国内的百度公司和美国的google公司。无人的汽车自动行驶技术的技术基础其实是语音辨别,当我们使用高精度的语音辨别将人对汽车行驶的要求语言转变为计算机指令后才可以进而通过计算机控制车辆行驶的方向与速度。
我们期望机器可以更加智能的听懂我们的语言,从而按照人类的指令工作而无需人们亲自操作机器,跟空调说将温度调到24度,空调可以自动完成调节无需使用遥控器、跟微波炉说帮我将食物加热微波炉自动去加热食物,等等。这些功能将促进人们的生活,促进社会文明的进步。而达成这些功能的至关重要的核心技术就是语音识别[1]技术,语音识别技术就是将人说出的具有某种含义的话,转换为相应的机器指令去控制机器来完成我们想要的功能,或者将语言转变为文字。目前,语音识别的理论研究发展迅速,具有语音交互功能的产品在市场上也非常受欢迎。
1.2 研究意义
我们的日常生活中是离不开语言这个重要的交流工具和思维工具的,如果研发出杰出的语音处理技术,它所带来的经济利益和文明的往前走还有进步将是特别特别大的。物理学中认为声音(sound)是物体在做振动运动时可以产生,并且必须通过介质(气体、固体以及液体)才能传播,最后可以被人耳的鼓膜感知到的一种自然现象。
实际上,人类就是利用声带的振动产生声音的。只不过我们发出的表示某种生活内容的话语被叫做语音。通过语音传输信息是人类最重要,最有效,最常用和最方便的信息交换形式[2]。同时,语音也可以作为人与机器之间交互的工具,这将会极大的帮助人们实现用语音控制机器的目标,它方便了人们的平时的生活,会促进文明的进步。另外据研究发现人的在进行思考时也必须依靠语言才能实现。
机器是不是也可以听懂人类说的话?我们是不是可以通过说话来操控机器工作?数十年来许许多多的科学家和工程师都在为将这一愿望变为现实而努力的工作。在众人的努力之下,这些年来科学界已经取得了巨大的成果。各种可以人机交互的产品雨后春笋般出现在市场上并且被民众追捧。然而这还远远不够,人类的需求总是向前发展的,我们需要不断的提高语音识别的效率和准确率,为生活创造更大的价值。智能机器通过对比匹配接受到得语音的某些特征与模式库中语音的特征的来识别语音的含义的,所以对语音从不同的角度进行分析变换,期望从某个角度寻找到更加具有代表性的特征,最终用于识别系统来提高识别准确率,并总结这种方法作为高效特征参数提取方法。这样的话也许可以寻找到一种别的特性参数,这是提高智能的语音交互产品系统性能的一种思路。本文将探究倒谱分析在语音辨认程序中的作用,它是否是一种优秀高效的信号特性的参数获得方式。
1.3 主要研究内容
本文的主要研究内容是怎样在语音识别技术中应用倒谱分析,验证倒谱分析[3]法提取特征参数训练模板库的识别准确程度。第一章的绪论部分介绍语音识别技术在目前的发展背景、寻找更加高效的特征参数提取方法的意义和本文的研究内容。第二章讲述语音识别技术的基础性理论与系统的结构构成。第三章详细叙述倒谱分析的概念、基础原理和优缺点,并列举了倒谱分析的一般应用。第四章将详细介绍如何用MATLAB软件搭建语音识别系统的一般过程,并利用倒谱分析法对语言信号进行特性参数的提取。第五章对全文进行回顾总结,介绍当前技术的难点和缺陷,设想未来技术的发展方向和我们的努力方向。
第2章 语音识别概述
2.1 语音识别技术的概念与发展历史
2.1.1 概念介绍
物理学的主要内容包括声、光、热、电、力等,声学是其中一个重要的组成部分。人类讲话的语言也属于声音[4]的一种,也许自然界的每一种声音都是只能够被他们自己理解的交流语言。把研究人类发出的声音的学科单独叫做语言学以跟别的声音进行区分。语言学的主要研究方向是人发声器官的机理并建立人类发声器官的物理模型和数学描述模型。以及研究听觉器官的构成机理和建立听觉器官的物理模型和数学描述数学模型。语音信号的物理特性(如频谱特性[5]、声调特性、相关特性和概率分布等)。
1907年被封闭在玻璃容器中的电子管被发明,这个元器件使得人们可以将微弱的声音信号进行放大,70年代后多种学科领域交叉的计算机技术(computer technology)迅速发展,方便了人们对信号进行处理的方法。数字信号处理技术的发展更是使得人们可以将模拟信号经过一系列的处理(比如分割、量化)之后,最终变成另外一种格式的信号——数字信号。这会给实际的应用带来巨大的方便,因为计算机只能对数字格式的文件进行各种处理。从另外一个角度讲,这也为进行时间域和频率域的分析创造了条件。利用数学的差分方程在计算机中构造出数字滤波器进行模拟处理等。从而诞生出一门新的学科——语音信号处理。
语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一[6]。这项技术虽然发展时间比较短、但是综合了多个前沿学科理论的交叉性质的新学科。在大学或者研究机构中语音信号处理技术主要由计算机科学或者信息科学领域的专家负责研究,但是想要更进一步的研究这项技术,还需要懂得和利用到人的肢体行为研究、人的社会心理状态研究、物理学角度的人发声方法研究与模拟等领域的跨专业和学科的知识。更加复杂的是还需要涉及到人在说话时的面部的表情状态、肢体的动作变化等,该技术的终极目标是实现人与机器之间的智能对话或者人用语言代替机械按键控制机器工作。
2.1.2 发展历史
由于复杂度较高,涉及的学科领域数量多跨度大,所以语音识别技术研究开始于不久之前,至今大约发展了七八十年的时间。世界上第一部具有语音识别功能的机器名字叫做AUDRY[7],它的识别准确率和其他功能都是很初级的,甚至无法正常使用。但是它开创了一项技术的先河,自此以后在贝尔实验室研发成果的基础上,许许多多的研究机构和科学工作者加入到这项具有伟大意义的工作中来。时至今日我们随便买到的语音交互机器它可以识别的字符数都是数以万计而不是最开始的几个简单的数字。
在语音识别技术诞生10年之后,科学家们终于取得了重要的的成果。DP(动态规划)和LP(线性预测分析技术)被研发成功并实际检验了其工程价值。1970年后的十年里科学家在语音识别领域取得了更加创造性的伟大进步,例如发现了矢量量化(VQ)。他是一种数据压缩的技术。就在同一时间还研究出了著名的HMM(隐马尔可夫模型理论),一直到现在为止这都是语句级别较为复杂语音识别系统所使用的算法,虽然它自身比较复杂而且还需要进行大量的训练。在这一时间,人们造出了识别系统,虽然它只可以识别特定人的语音。
80年代HMM和抽象模拟人类大脑的神经元网络的人工神经元网络(ANN)技术开始进入信号处理领域,它们的优异性能加速了语音识别技术的发展。
90年代互联网大潮影响全球的各个领域,多媒体技术改变了传统的音乐和电影发行方式。许多技术先进的西方发达国家开始努力让语音识别系统进入普通消费者手中。我国政府历来都非常重视科学技术自力更生的发展,提出了科教兴国战略。对语音识别技术也不例外,一直都是大力支持的,例如“863”计划就包含有面向语音识别技术的研究项目,由中国科学院的相关研究所和北京大学等国家级科研机构负责研究。由于汉语在世界范围内的广泛应用,以及我们国家具有的极其巨大的消费者人群和极具活力的商品消费市场,以至于很多国外的私人或者官方的科研机构都进行关于汉语语音的识别的研究,期望抢占市场获得经济利益,研究成绩非常令人兴奋。
2.2 语音识别的基本方法
目前为止常用的语音识别实现有依靠人体发声机制模拟和语音学、模板匹配和人工神经网络[8]这三种比较有效的方法。
最先被学界提出和试验的是依靠人体发声机制模拟和语音学的方法,它伴随着语音识别技术这一构想同时出现,既然提出时间那么它就早应该发展成现在最成熟的实现技术,但是由于涉及到的各方面的知识过于庞杂和深刻,所以直到现在还是没能制造出使用级别的产品,等技术难题被克服的那天,相信这种识别方法的效果将是最好的。我们认为人类日常生活中的所有语言可以被看作基本语言基原的组合,虽然这些语言基原的数量肯定特别庞大,但是他的总量不是无限的,这就有可能通过长时间的大规模积累整理工作将所有的语言基原都找到并且编码。机器可以通过对语言基原的时间域和频率域的分析来区分不同的语言基原。
模板匹配法是目前为止成长最好的,技术最为成熟的。依靠这项技术制造的语音交互产品已经到达应用级别并受到市场的欢迎。模板匹配法的技术步骤一般分为四步,分别是语音信号特性参数提取、产生模板库、产生测试模板、利用算法进行模板之间的匹配后输出相似度最大的为识别结果。该方法用到了HMM[9]、DTW、VQ[10]等具体的技术,HMM是20世纪70年代才被用于语音处理领域的,这一成果具有划时代的意义,它使得人类语音的识别成为可能。HMM方法是目前市场上流通的语音交互产品所使用的技术。DTW的含义是动态时间规整,由日本学者提出来用于解决端点检测时不同的语音的时间长度不一致的问题。DTW的核心思想就是按照相同的比例把所有的待检测语音文件进行放大,或者当文件较长时按照一定的比例进行压缩,最终使得这些待检测的语音从时间角度看拥有和参考模板一样的长度。人类语言的讲述与听取过程实际上是随机的,VQ是目前比较重要和成熟的将信号的长度进行变换的方法。
第3章 倒谱分析概述
3.1 倒谱分析的概念
假设信号的Z变换为式3-1,其对数为式3-2,改写为式3-3,式3-3就是信号的复倒谱的定义,的实倒谱的记作,计算方式为式3-4。
(3-1)
(3-2)
(3-3)
(3-4)
复倒谱是有界衰减序列,其界限为式3-5,求复倒谱的原理框图如3-1所示。
(3-5)
图3-1 求复倒谱的原理框图
3.2 倒谱分析MATLAB实现
可以利用MATLAB中的库函数实现对信号的倒谱不分析,如图3-2所示就是语音信号经过倒谱处理前后波形的对比图。倒谱法在语音处理中有多种作用,例如可以用倒谱法求基音的周期。
图3-2 语音信号的倒谱图
第4章 MATLAB语音信号处理的过程
4.1 MATLAB软件介绍
数字信号处理技术是复杂和丰富的,在实践中它的应用场景,一般是被工程师用来对语音信号和图像信号进行变换和分析,文章这里讨论对语音信号进行处理分析时的情况,对语音信号的操作包括在时间域和频率域两个角度进行。在时域方面的处理一种是对语音信号进行线性的分析,另外一种是对语音信号进行非线性的变化从而将原来的信号变成各种调制信号。在频率域对信号的处理就是在频谱中对信号进行分析,这极大的丰富了对信号进行处理的范围,同时频率域的分析结果在处理不确定信号时又具有极大的现实意义。而这一切处理过程都可以用MATLAB软件实现和模拟,并且可以输出详细的结果图,高效且简洁,所以MALAB是信号处理和通信领域非常常用的工具。从具体的应用方面看, 数字格式的音频文件经过MATLAB的一系列处理之后,在保持较高的信号质量的前提下可被变换为离散的数据文件,然后进行例如滤波器滤波、傅里叶变换、时间域和频率域分析、声音的读取和回放等分析和处理过程,并且输出各种解析结果。另外,MATLAB在金融计算、电子电工设计、计算生物学领域也非常有效。
4.2 MATLAB进行语音信号处理的一般过程
4.2.1 采集语音信号的方法
在这里我利用小米手机的录音功能录制语音信号,所使用手机的型号为MI8,可以直接录制需要被处理的语音,建议语音时长短一点这样方便查看时域的信号图。录制完成后利用通讯软件QQ直接发送到电脑上,保存在电脑桌面并命名为test.wav,点击属性查看文件的位置路径为C:\Users\23584\Desktop\atest.wav。wave格式的音频有两种格式,Matlab中的识别函数只能对PCM格式的进行处理,所以当原始的音频文件为其他格式的语音信号时,需要对其文件格式进行转换。这里推荐使用音频格式转换工具Adensoft Audio MP3 Converter对音频文件进行转换,操作界面如图4-1所示。
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: