基于BP_Adaboost强分类器的语音信号分类文献综述
2020-06-08 21:14:51
一、文 献 综 述
(一)研究背景
BP(Back Propagation)神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络之一,直译为反向传播。BP神经网络的优点有:有较高的预测精度、较好的通用性和较强的非线性映射能力等。但是BP神经网络存在一些不足,主要有容易陷入局部极小值,算法收敛速度较慢、隐含单元的数目选择无一般性指导原则、新加入的学习样本对已学样本的学习结果影响较大等问题[1]。其原因是BP神经网络是梯度下降法,如果遇到复杂的目标函数时,学习速度和收敛速度会很慢[1]。
Adaboost是一种迭代算法,通过对弱学习算法的加强而得到强学习算法,即通过一个包含关键特征的弱分类器集合,构建出具有强分类能力的强分类器。Adaboost算法的优点在于它使用加权后选取的训练数据代替随机选取的训练样本,将弱分类器联合起来,使用加权的投票机制代替平均投票机制。
所以将Adaboost算法与BP神经网络结合,利用Adaboost算法的特征把BP神经网络的分类模型整合成强分类器,可以用于人脸识别、语音信号识别、文字识别等。
基于此方法将语音进行识别,将语音分类按其声门激励形式不同分为浊音和清音,浊音又包括元音和浊辅音。因为这几类信号的很多特征参数的动态取值范围通常都是互相交叠的,所以不可以仅仅提取某一特征参数将其线性分离,更有参数受到噪声信号的干扰。传统的方法大多是靠人工经验来完成判断,但是无法保证精确程度。但随着智能电脑的飞速发展,BP神经网络可以模拟人类神经元活动,可以实现逼近任意非线性函数、并行化处理。所以它能解决语音分类的难题[3]。
(二)国内外现状
国外研究:第一个语音识别系统可以追溯到1952年,Davis等人发明出第一个可以识别十个英文字母的语音识别系统。而在此后的二十年里,该项目发展陷入瓶颈,其原因有大量词汇、连续语音、非特定人等。
到了20世纪80年代末,这项研究得以巨大突破。产生了主流的两大不同的识别系统:HMM模型和人工神经元网络。前者通过努力,使统计方法成为了语音识别的主流,达到了较高的精度;