基于kaldi的口令式词汇识别开题报告
2022-01-14 21:20:09
全文总字数:3652字
1. 研究目的与意义及国内外研究现状
近年来,人工智能在生活中广泛应用,但应用最成功的的两个领域是计算机视觉和语音识别。本文基于kaldi语音识别工具包来研究语音特征提取的三种不同方法以及它们对语音识别准确度的影响。
通过对kaldi中的yesno样例的源代码的分析,阐述了kaldi语音识别的流程框架和核心原理,并据此研究了MFCC,PLP,和Fbank三种不同的语音特征提取方法,并对比了每种方法对应的词错率。结果发现MFCC和PLP两种方法有较好的准确度,而Fbank识别率较差。而MFCC和Fbank的特征提取方法大体一致,区别在于MFCC最后进行了离散余弦变换,由此证明了离散余弦变换在语音识别领域中的重要性,也表明离散余弦变换产生的倒谱系数(MFCC)是可以很好的表征人类语音的特征的。
国内外研究现状
语音识别技术发展到今天,目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。在实际的应用过程中,人们还研究了多种降低复杂度的方法,包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交换机、电话机、手机已经包含了语音识别拨号功能、语音记事本、语音智能玩具等产品,同时也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息。调查统计表明,多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测,在近5年内,语音识别系统的应用将更加广泛,各种各样的语音识别系统产品将不断出现在市场上。语音识别技术在人工邮件分拣中的作用也日益显现,发展前景诱人。一些发达国家的邮政部门已经使用了这一系统,语音识别技术逐渐成为邮件分拣的新技术。它可以克服手工分拣单纯依靠分拣员记忆力的不足,解决人员成本过高的问题,提高邮件处理的效率和效益。2. 研究的基本内容
第一,探究了语音识别的基本框架,因为大部分语音识别都离不开声学模型和语言模型的建立,所以本文这种介绍了这两种模型,同时,也引出了三种不同的语音特征提取的方法,分析了它们的原理,比较了它们的区别。
第二,本文研究了kaldi的内部源代码,通过入口文件run.sh一层层分析内部原理,深刻研究了每行代码背后的核心原理,为以后在kaldi上做进一步研究打下基础。
第三,本文在深刻读懂kaldi源代码的前提下,修改了run.sh中的make_mfcc.sh脚本文件,以此产生了run_mfcc.sh,run_fbank.sh以及run_plp.sh三个文件,分别对应mfcc,fbank,plp三种不同的语音特征提取方法,并在ubuntu上实际运行出各自的词错率,实验结果表明mfcc方法的词错率最低,识别效果最好,plp方法其次,fbank方法识别效果最差。
3. 实施方案、进度安排及预期效果
实施方案:使用kaldi语音工具包来实现三种不同的特征提取方法,进而比较它们的词错率。
进度安排以及预期结果:
二月份到三月份完成kaldi的运行环境搭建以及kaldi的编译,要能够运行基本例程。
4. 参考文献
[1]blackley, s. v.speech recognition forclinical documentation from 1990 to 2018: a systematic review[j].journal of theamerican medical informatics association,2019, 26(4): 324-338.
[2]科大讯飞.探索语音识别技术的前世今生[j].科技导报,2016, 36 (9) :76-77.
[3]胡文君,傅美君,潘文林.基于kaldi的普米语语音识别[j].计算机工程,2018,44(1):199-205.