语音识别中基于深度学习的声学模型研究开题报告
2021-03-11 00:17:53
1. 研究目的与意义(文献综述)
1.1 国内外研究现状语音识别的研究自20世纪50年发展起,在近二十年来,语音识别技术有了显著的提升,如今以苹果手机的siri,科大讯飞的语音输入法为代表,被众多专家学者认为是21世纪10大最具发展潜力的热门学科之一。如今语音识别作为模式识别的一个分支,与机器学习中的深度学习相结合,通过计算机将语音自动识别成文本,即自动语音识别(automatic speech recognition ,asr)技术也成为了国内外许多专家学者备受追捧的研究方向。早期的语音识别是基于gmm-hmm[a1] (gaussian mixture model -hidden markov model)模型的主流框架,以剑桥语音识别组推出的htk工具包为主要研究手段,此后语音技术的发展一直趋于缓慢。2006年,hinton等人提出将深度置信网络(deep brief network,dbn)应用于语音识别的思想为该技术的研究开启了另一个春天,研究发现基于dnn-hmm(deep nerual network-hidden markov model)模型的识别框架其性能较gmm-hmm模型提高了10%,突破了传统语音识别中声学模型的瓶颈,革新了人们对于神经网络(nerual network ,nn)的认知。随着语音识别和深度学习的发展,dan povey团队编写的kaldi语音识别工具加入了深度神经网络(dnn deep nearul network)的分类器并在htk工具包的基础上做出了完善,为人们研究基于深度学习的语音识别技术提供了很好的实验平台。
2. 研究的基本内容与方案
2.1 研究内容和目标本次设计将从理论上讨论传统gmm-hmm、dnn-hmm声学模型中涉及的em(expectation maximization algorithm)算法,反向传播算法;讨论网络层训练算法有监督和无监督算法的对比;讨论tdnn结合基于受限玻尔兹曼机(restricted boltzmann machine,rbm)的预训练加微调的网络训练方式;讨论结合ctc(connectionist temporal classification)算法的lstm优化的网络模型结构;从实验上将从数据准备、特征提取、模型训练三个方面详细论述基于kaldi中nnet3的模型训练实现过程。
2.2 拟采用的技术方案
1.实验平台
3. 研究计划与安排
第1周—第3周 搜集资料,撰写开题报告;
第4周—第5周 论文开题;
第6周—第12周 撰写论文初稿;
4. 参考文献(12篇以上)
【1】povey d, ghoshal a, boulianne g, et al. the kaldi speech recognition toolkit[c]//ieee 2011 workshop on automatic speech recognition and understanding. ieee signal processing society, 2011 (epfl-conf-192584).
【2】dahl g e, yu d, deng l, et al. context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[j]. ieee transactions on audio, speech, and language processing, 2012, 20(1): 30-42.
【3】deng l, hinton g, kingsbury b. new types of deep neural network learning for speech recognition and related applications: an overview[c]//acoustics, speech and signal processing (icassp), 2013 ieee international conference on. ieee, 2013: 8599-8603.