基于深度学习的方言识别系统实现开题报告
2020-04-12 09:01:18
1. 研究目的与意义(文献综述)
1.1 研究目的及意义
语音作为最自然、最有效的交流途径,一直是人机通信和交互领域最受关注的研究内容之一。自动语音识别的主要目的是让计算机能够“听懂”人类的语音、将语音波形信号转化成文本。它是实现智能的人机交互的关键技术之一。声学模型和语言模型是语音识别系统的两个核心模块。传统的语音识别系统普遍采用基于高斯混合模型和隐马尔科夫模型(gaussian mixture model-hidden markov model, gmm-hmm)的声学模型以及n-gram语言模型。近年来,随着深度学习的兴起,基于深度神经网络的声学模型和语言模型相比于传统的gmm-hmm和n-gram模型分别都获得了显著的性能提升。在此背景下、本论文从深度神经网络的模型结构出发,展开了较为系统和深入的研究,一方面对现有的模型进行优化,另一方面结合语音及语言信号的特性探究新的网络结构模型,从而提高基于深度神经网络的语音识别系统的性能和训练效率。
本文研究了基于前馈全连接深度神经网络((deep neural networks,dnn)的语音声学建模。我们分别探索了基于sigmoid非线性激活函数的dnn(sigmoid-dnn)和基于整流线性单元(rectified linear units, relu)的dnn (rl-dnn)的大词汇尾连续语音识别。首先针对传统的sigmoid-dnn,我们通过研究发现其隐层权重越往高层稀疏性越强的特性,提出了一种隐层节点递减的dnn结构,命名为sdnn。实验结果表明sdnn可以在保持性能基本不变的情况下将模型参数量减少到45%,从而获得2倍的训练加速。进一步地我们提出将dropout预训练作为一种神经网络的初始化方法,可以获得相比于传统的无监督pre-training更好的性能。然后我们针对rl-dnn的研究发现,通过合理的参数配置,可以采用基于大批量的随机梯度下降算法来训练rl-dnn,从而能够利用多个图形处理单元(graphic processing unit, gpu)进行并行化i)i练,可以获得超过10倍的i) i}练加速。进一步地我们提出了一种绑定标量规整的方法用于优化rl-dnn的训练,不仅使得训练更加稳定,而且能够获得显著的性能提升。
2. 研究的基本内容与方案
2.1设计目标利用深度学习进行湖北省荆门市京山县的京山方言的识别。语音识别的过程如图1.1,在接收到语音信号(京山方言)后,机器内转换翻译,最后的得到普通话表达的文字输出。
图1.1 语音翻译系统的主要组成模块
3. 研究计划与安排
第1-4周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
第5-6周:论文开题。
第7-12周:撰写论文初稿。
4. 参考文献(12篇以上)
[1]schmidhuber j. deep learning in neural networks: an overview.[j]. neural netw, 2014, 61:85-117.
[2]sangeetha j, jothilakshmi s. a novel spoken keyword spotting system using support vector machine[j]. engineering applications of artificial intelligence, 2014, 36(36):287-293.
[3]mandal a, prasanna kumar k r, mitra p. recent developments in spoken term detection: a survey[j]. international journal of speech technology, 2014, 17(2):183-198.