基于深度学习的方言识别系统实现文献综述
2020-04-29 18:49:52
1.1 研究目的及意义
语音作为最自然、最有效的交流途径,一直是人机通信和交互领域最受关注的研究内容之一。自动语音识别的主要目的是让计算机能够“听懂”人类的语音、将语音波形信号转化成文本。它是实现智能的人机交互的关键技术之一。声学模型和语言模型是语音识别系统的两个核心模块。传统的语音识别系统普遍采用基于高斯混合模型和隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)的声学模型以及n-gram语言模型。近年来,随着深度学习的兴起,基于深度神经网络的声学模型和语言模型相比于传统的GMM-HMM和n-gram模型分别都获得了显著的性能提升。在此背景下、本论文从深度神经网络的模型结构出发,展开了较为系统和深入的研究,一方面对现有的模型进行优化,另一方面结合语音及语言信号的特性探究新的网络结构模型,从而提高基于深度神经网络的语音识别系统的性能和训练效率。
本文研究了基于前馈全连接深度神经网络((Deep Neural Networks,DNN)的语音声学建模。我们分别探索了基于sigmoid非线性激活函数的DNN(sigmoid-DNN)和基于整流线性单元(Rectified Linear Units, ReLU)的DNN (RL-DNN)的大词汇尾连续语音识别。首先针对传统的sigmoid-DNN,我们通过研究发现其隐层权重越往高层稀疏性越强的特性,提出了一种隐层节点递减的DNN结构,命名为sDNN。实验结果表明sDNN可以在保持性能基本不变的情况下将模型参数量减少到45%,从而获得2倍的训练加速。进一步地我们提出将dropout预训练作为一种神经网络的初始化方法,可以获得相比于传统的无监督Pre-training更好的性能。然后我们针对RL-DNN的研究发现,通过合理的参数配置,可以采用基于大批量的随机梯度下降算法来训练RL-DNN,从而能够利用多个图形处理单元(Graphic Processing Unit, GPU)进行并行化i)I练,可以获得超过10倍的i) I}练加速。进一步地我们提出了一种绑定标量规整的方法用于优化RL-DNN的训练,不仅使得训练更加稳定,而且能够获得显著的性能提升。
语音识别技术伴随着计算机科学和通信等学科的发展逐步成长,至今已经有超过六十年的历史。早在上世纪50年代,贝尔实验室就开始进行语音识别的研究。当时研究的主要是基于简单的孤立词的语音识别系统。1956年普林斯顿大学的RCA实验室利用模拟滤波器组提取元音的频谱,然后再用模板匹配,构建了针对特定说话人的包括十个单音节单词的语音识别系统。1959年,伦敦大学的科学家第一次使用统计学的原理构建了可以识别四个元音和九个辅音的音素识别器(Fry,1959)。同年,来自麻省理工的林肯实验室的研究人员首次实现了针对非特定人的十个元音的识别器。
上世纪80年代是语音识别发展取得突破的一个关键时期。两项关键技术在语音识别中得到应用,分别是基于隐马尔科夫模型(Hidden Markov Model,HMM)(Gauvain and Lee, 1994, Rabiner, 1989, Schwartz et al., 1985)的声学建模和基于n-gram的语言模型。这时期语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展。上世纪90年代是语音识别技术基本成熟的时期,基于GMM-HMM的语音识别框架得到广泛使用和研究。这一时期语音识别声学模型的区分性训练准则和模型自适应方法的提出使得语音识别系统的性能获得极大的提升。
进入20世纪的头10年,基于GMM-HMM的语音识别系统框架已经趋于完善,相应的区分性训练和模型自适应技术也得到了深入的研究(Jiang, 2010,Macherey et al., 2005, Povey and Woodland, 2002, Schliiter, 2000)。这阶段语音识别开始从标准的朗读对话转向更加困难的日常交流英语,包括电话通话,广播新闻,会议,日常对话等。但是基于GMM-HMM的语音识别系统在这些任务上表现却不怎么理想,语音识别系统的错误率很高,远远达不到实用化的需求。从而语音识别的研究陷入了一个漫长的瓶颈期。语音识别技术的再次突破和神经网络的重新兴起相关。
2006年Hiton提出用深度置信网络(Deep Belief Networks, DBN)(Hinton et al., 2006b)初始化神经网络,使得训练深层的神经网络变得容易,从而掀起了深度学习的浪潮。2009年,Hinton以及他的学生D. Mohamed将深层神经网络应用于语音的声学建模(Mohamed et aL,2009),在音素识别TIMIT任务上获得成功。但是TIMIT是一个小词汇量的数据库,而且连续语音识别任务更加关注的是词甚至句子的正确率。而深度学习在语音识别真正的突破要归功于微软研究院俞栋,邓力等在2011年提出来的基于上下文相关(Context Dependent, CD)的深度神经网络和隐马尔可夫模型(CD-DNN-HMM)的声学模型(Dahl et al., 2012) 。CD-DNN-HMM在大词汇量连续语音识别任务上相比于传统的GMM-HMM系统获得了显著的性能提升。从此基于GMM-HMM的语音识别框架被打破,大量研究人员开始转向基于DNN-HMM的语音识别系统的研究。有关基于深度神经网络的语音识别也是本论文主要研究内容。
2. 研究的基本内容与方案
{title}2.1设计目标利用深度学习进行湖北省荆门市京山县的京山方言的识别。语音识别的过程如图1.1,在接收到语音信号(京山方言)后,机器内转换翻译,最后的得到普通话表达的文字输出。