基于模糊理论的声音事件识别方法的研究
2022-12-03 11:10:42
论文总字数:19474字
摘 要
近年来,声音事件识别技术备受学者的关注,声音事件识别在音频监控,声控机器以及音频场景分析等新型产业中扮演着越来越重要的角色。声音是我们感知外界的一种重要方式,它能给我们提供多种多样的信息。
声音事件识别技术从上个世纪开始到现在正在飞速发展,各种各样的特征提取方法和分类分析方法都发展了起来。模糊理论与声音事件识别相结合,则是本文研究内容的重点。本文主要针对模糊矢量量化模型进行声音事件识别算法研究。用比较典型的时域特征和MFCC特征作为特征参数,用模糊矢量量化模型作为训练器和分类器,完成声音事件的识别这一实验并得出分类的结果。
关键词:声音事件识别;特征提取;模糊理论;模糊C均值聚类算法
Abstract
In recent years, sound event recognition technology has attracted the attention of scholars. Sound event recognition plays an increasingly important role in new industries such as audio monitoring, voice control machine and audio scene analysis. Sound is an important way for us to perceive the outside world. It can provide us with a variety of information. Since the last century, sound event recognition technology has been developing rapidly, and various feature extraction methods and classification analysis methods have been developed. The combination of fuzzy theory and sound event recognition is the focus of this paper. This paper focuses on the research of sound event recognition algorithm based on fuzzy vector quantization model. In this paper, the typical time domain features and MFCC features are used as feature parameters, and the fuzzy vector quantization model is used as training device and classifier to complete the experiment of sound event recognition, and the classification results are obtained.
Key words:sound event recognition;feature extraction;fuzzy theory;fuzzy c-means clustering algorithm
目 录
摘 要 I
Abstract II
第一章 绪 论 1
1.1研究背景 1
1.2发展与研究现状 1
1.3研究的方向以及存在的问题 2
1.4论文组织结构 2
1.5本章小结 2
第二章 声音事件识别的基本原理 3
2.1声音事件识别系统 3
2.2预处理模块 3
2.3特征提取模块 3
2.4分类器训练模块 4
2.5测试模块 5
2.6本章小结 5
第三章 声音事件识别特征提取 6
3.1音频信号的时域特征提取分析 6
3.1.1短时能量特征 6
3.1.2 基音频率特征 7
3.1.3 短时平均过零率 7
3.2 音频信号的倒谱特征分析 7
3.2.1梅尔频率倒谱特征参数 8
3.2.2梅尔倒谱系数提取的具体步骤 9
3.2.3代码实现 10
3.3本章小结 11
第四章 基于模糊矢量量化的声音事件识别 12
4.1矢量量化 12
4.2矢量量化的失真测度 12
4.3模糊矢量量化 14
4.4本章小结 15
第五章 实验与实验结果 16
5.1实验条件 16
5.2实验结果与讨论 16
5.3实验小结 18
第六章 总结与展望 19
6.1总结 19
致 谢 21
参考文献 22
第一章 绪 论
1.1研究背景
近年来,声音事件识别技术备受学者的关注,声音事件识别在音频监控,声控机器以及音频场景分析等新型产业中扮演着越来越重要的角色。声音是我们感知外界的一种重要方式,它能给我们提供多种多样的信息。以语音为例,我们可以对语音进行分析获得声源的各种信息。但这里所提到的声音不仅仅是我们人与人之间交流的语音,它还包括了其他的环境包含的声音,例如流水声,啼哭声,枪声爆炸声等等我们根据流水声判断水源的大小,根据婴儿的啼哭声知道婴儿需要照顾,根据枪声判断敌人的位置,尽管这些声音无法提供语义,可我们仍能够从中获取到必要的信息。目前声音事件自动识别这种技术已经在整个世界以及国内都有了比较成熟的发展应用,早在智能手机里面的智能语音识别助手中就已经开始应用了这种语音识别,语种识别等技术,但是对于声音事件识别技术本身,这仅仅是一部分的应用,声音事件识别不仅包括语音,还包括自然环境的声音,在不同自然环境下识别声音事件会面临各种困难:声源多,噪声多,频带较宽等等因此,我们的研究不能止步于此,针对不同的自然环境下发生的声音事件,我们仍然需要对声音事件识别技术做出改善以及更深入的研究。
1.2发展与研究现状
声音事件识别的技术研究最早开始于1980年代,当时的研究工作者为了使我们能够准确地识别水下的任何一个物体,由于水下的能见度太低,于是他们决定利用声音信号来对其进行识别,以判断得出水下的任何一个物体。当时的识别方式算法等都较为简单,研究人员用传统的语音识别算法框架和信号用于分析声音特征。例如决策树和K邻近算法。虽然方法简单,但是识别的效率种类都不高。1997年,Sawhney和Maes在MIT Media Lab的技术报告上[1],首次正式明确提出了关于声学应用场景的信息分类以及其他声学场景事件的辨认等新技术概念,并公布了一份涵盖了“人类话语声”,“地铁”,“火车”以及其他不同类别的声音数据集。研究人员充分运用和总结借鉴了语音听觉分析以及对语音听觉传感学语音基础知识研究的科学理论和研究方法,从大量音频数据中搜集提取出多种不同的数字音频的特征,并通过分析综合利用神经网络(ANN)以及基于k类的近邻分析算法对其特点进行了综合分类,让音频识别达到了68%的准确率。之后,又逐渐出现了一些研究者们的新发现,由于当时研究人员发现对不同声音事件的识别能力与不同声音事件本身的频域特征和时域特征密切相关,于是这些研究者们又开始针对声音事件中噪声信号频域和时域的不同特点对其进行深入研究和综合分析。终于有一个研究团队发现了梅尔倒谱的实用性,用梅尔倒谱系数作为特征参数来表示音频信号的包络变化,并且通过使用高斯混合模型描述声音信号的概率密度统计分布模型。之后,这一批研究人员又通过其他的特征变换添加了许多新的可用的特征参数,在包含了多种声学场景的数据集中进行识别分类,实验结果的准确率达到了58%。二十世纪以来,声音事件识别技术随着社会的需求,不断朝着需要它的方向发展,研究人员会将声音事件识别技术用于场景分析安全检测以及智能化识别等领域。声音事件识别也更多地被视作机器学习任务,不再是传统的模式识别任务。
1.3研究的方向以及存在的问题
本文的主要研究内容:用基于模糊理论的声音信号识别分类的算法进行声音事件识别。具体存在的问题就是声音信号的采集和识别。环境中的声音信号存在许多干扰的噪声,如何降噪也是我们面临的大问题。语音识别中我们只需要将人声与环境噪声区分开,两种声音区别较大可以比较容易的减小噪声,但是两者都是环境中的声音就很难区分开,非常容易混淆在一起。
1.4论文组织结构
本文一共分为六个章节:
第一章概括绪论,介绍声音事件识别技术研究发展背景发展进程。
剩余内容已隐藏,请支付后下载全文,论文总字数:19474字