基于BP神经网络的语音信号分类研究文献综述

2020-04-14 17:13:22

1．目的及意义

在数字化和网络化的今天，随着数字技术的进步，互联网上涌现了大量的声音信息，如何得到有用的信息变得尤为重要。音乐、视频声音、微信语音等都是语音信息，音频分类能为视频的检索和摘要、音频信息的理解提供有用的信息，如果可以将音频信号分为音乐、纯语音、静音和带背景音的语音更有助于理解音频内容。各行各业对于声音媒体越来越广泛的应用也加快了语音分类的发展。对于音频信号来说，基于内容的音频检索是指通过音频特征分析，对不同的音频数据赋以不同的语义，使具有相同语义的音频在听觉上保持相似，从而便于查询。而本文研究基于内容的音频分类是基于内容的音频检索技术的重要研究内容。

音频分类能为视频的检索和摘要、音频信息的理解提供有用的信息。将音频信号分为纯语音、音乐、静音和带背景音的语音等有助于更好地理解音频内容，也有助于进一步的具体操作，比如音频检索和音频编译码。但是由于原始语音数据除了含有采样率、量化精度和编码方法等有限的信息外，本身只是一种非语义符号表示和非结构化的二进制流，缺乏内容语义的描述和结构化的组织，因而音频分类受到极大的限制。所以将音频中的结构化信息和内容语义提取出来，使无序的音频数据有序化，是音频分类技术实用化的关键。基于内容的音频信号的自动分类，尤其是语音信号和音乐信号的分类做为提取音频内容语义和结构的重要手段，是当前音频分析和检索领域的一个研究热点。另外，音频分类在多媒体信号的有效编码、自动语音识别、基于内容的索引和视听数据的修复、音乐流派分类和乐器识别等应用领域具有重大的应用价值和广阔的前景。

现状：在实现音频信号分类的系统框架下，涉及到统计学、音频信号处理和模式识别等学科的知识。

20世纪90年代中期,美国Muscle Fish公司的Erling Word等人首次提出了根据内容对音频进行分类的方法,并且开发了一个商业化的基于音频感知特性的音频检索引擎Muscle Fish系统。在此方法中,Word等人详细地分析了音频的区别性特征,从每一首样本音乐中提取出一些时域或频域的统计特征,包括均值、方差和自相关系数等,这些参数代表了该段音频的响度、带宽、音调、亮度以及和谐度等。根据最邻近准则和马氏距离设计音频的分类器,用于语音、音乐和其它音频数据的分类,并对语音和音乐进行深入分析,例如分析男女声或音乐的节奏。所用数据包括铃音、电话音、语音等16种共409个样本数据。

2003年Pinquier和Senac使用时频特征如中心频率、4Hz能量模型等用于分类特征并使用高斯模型用于分类。同年Harb和Chen指出梅尔谱系数成为一种具有较强分类能力的特征被广泛运用于各个语音与音乐分类任务中。2007年Munoz-Exposito发表文章提出基于翅曲线性预测模型的中心频特征。文章中分类算法提取每一个分析窗的中心频率作为分类特征。由于语音信号的频率普遍较低，并总会在短时间内，尤其是在语音与非语音的分界处，有较大的变化，而相比之下音乐信号的变化远不如语音信号尖锐，因此中心频率成为对语音和音乐分类的重要特征。随着对语音与音乐分类的准确率和时间复杂度的要求越来越高，尤其是在某些实时系统中，研究者们在选用音频特征时更加注重分类能力和计算复杂度之间的平衡。

2008年Wang在文章中分析了多种短时特征和长时特征的分类能力及其计算复杂度，结果表明短时特征虽然计算上相对容易，但分类能力欠佳，而长时特征则更有利于分类准确率，但计算相对耗时。因此，针对不同的应用场景，短时特征与长时特征不同程度的结合可能是平衡分类能力与计算复杂度的最佳方案。

{title}

2. 研究的基本内容与方案

{title}

本文通过对给定的语音信号先进行处理提取特征，使用MATLAB编写BP神经网络算法对提取的特征进行处理，以达到语音分类的目的。

人通过声道产生声音，声道的形状决定发出怎样的声音。声道的形状包括舌头，牙齿等。如果我们可以准确的知道这个形状，那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时功率谱的包络中显示出来。将语音分成帧，每帧语音的频谱再经过映射到灰度级变成一个声谱图。之所以要在声谱图中表示语音的原因：首先，音素的属性可以更好的在这里面观察出来。另外，通过观察共振峰和它们的转变可以更好的识别声音。隐马尔科夫模型（Hidden Markov Models）就是隐含地对声谱图进行建模以达到好的识别性能。还有一个作用就是它可以直观的评估TTS系统（text tospeech）的好坏，直接对比合成的语音和自然的语音声谱图的匹配度即可。本设计中通过对语音信号的频谱进行同态信号处理，将非线性问题转化成线性问题，将其转化成倒谱频域。因为人耳听觉系统只聚焦特定的区域而不是整个频谱包络，我们使用符合听觉系统的Mel频率分析方法，考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。将普通频率转换到Mel频率的公式是：

。

它可以将不统一的频率转化为统一的频率。提取MFCC特征的过程：

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码