雷声的识别研究开题报告
2022-01-25 22:56:10
全文总字数:5342字
1. 研究目的与意义及国内外研究现状
自进入21世纪以来,我国的综合国力逐渐增强,居民的生活水平也在不断提高,所以越来越多的人开始关注起了新技术产业——人工智能领域。在人工智能领域,环境识别是人工智能能够进行正确决策的重要前提之一,而音频识别则是人工智能进行环境识别的重要组成部分。随着音频识别技术的发展,为满足音频识别技术的广泛应用,大部分的研究聚集在语音识别与音乐识别两大领域。语音识别和音乐识别的研究重点在于音频的语义提取,而对于环境声音识别来说,更侧重于音频的分类。
所谓的环境声音,是指除语音及音乐以外的所有声音,它具有非结构化的特点,这决定了对于它的识别要从需求出发,从而选择相应的对象侧重研究。例如对枪声、爆炸声和尖叫声的研究是为了对危险性事件的监测与报警;当把鼓掌声、欢呼声、哨子声等作为关键声音时,可用于大型活动的多媒体资料的检索,比如体育赛事、音乐节、晚会等;以识别气体泄漏、燃烧、玻璃破碎等声音为主要目标时,可以划分出当时情况的严重程度,再决定是否通过网络传输通知报警服务平台进行处理。因此,雷声的分类识别研究是为了使其方便应用于气象监测领域的研究。
二十世纪八十年代以来,随着时代的进步和社会的发展,雷电所带来的灾害日益严重。因为强大的雷电流可以产生巨大的热量,所以这种热效应十分容易引起火灾。除此之外,更为严重的是由雷电产生的雷电电磁感应,极易引起低压电器的反击穿现象。这种现象会使雷电通道电流变大,使通道内空气膨胀形成激波,从而破坏附近的房屋、建筑物等。不仅如此,随着我国高新技术装备和微电子器件的大量采用,雷电对高新技术关系十分密切的领域也产生了重大的危害。由于大规模以及超大规模集成电路对雷电所造成的电磁干扰极为敏感,这就使得雷电电磁辐射脉冲容易大大影响一些常用微电子设备的正常工作,并且有时会造成设备大规模的严重损害。
2. 研究的基本内容
本文主要研究了雷声的分类识别,用于区别雷声和其他环境声音。基于上述的多种气象领域的应用需求和为了尽量减少社会经济损失,本文首先利用现有的音频数据辑——《英国广播公司bbc音效库合辑》,来设计和建立两个数据一致性较好、权威性较佳、接受度较广的音频数据库;其次为证明此数据库的可靠性,把数据库中所有的音频文件分成四组,分别是雷声与干扰声、闷雷与干扰声、霹雳与干扰声以及闷雷、霹雳和干扰声,将这四组分别进行分类识别。
对于声音的分类识别,不同声音特征的选择决定了其分类的效果。用于表征声音信号的特征有许多种,研究中常用的声音特征有:短时能量、过零率(zero-crossing rate, zcr)、基音频率(f0)、梅尔频率倒谱系数(mel-frequency cepstral coefficients, mfccs)、带宽、线性倒谱系数(linear prediction cepstrum coefficient, lpcc)等等。其中mfccs是众多声音识别系统中最常用的特征参数,因其具有良好的识别性能,在一般的音频分类识别中,通常会将其作为所选特征,对数据库中音频进行分类识别;此外,zcr与f0也常作为特征选择中的参数。本文在选用is09特征集和is10特征集两种特征集的基础上,对其进一步筛选,最终使用分类器对其进行分类识别。
在对音频的分类识别过程中,通常有多种分类识别方法,常用的有支持向量机(support vector machine, svm)、gmm、knn、bp神经网络、隐马尔可夫模型(hidden markov model, hmm)等等。现有的knn实现方法较为简单,通常也可得到较高的准确性,因此其广泛应用于各种领域。但其同样存在缺陷,如分类边界误差较大、需要较大存储等。svm分类算法的效率与精度都比较高,参数少,且其相对于传统的学习算法,空间复杂度及所需的先验干预也相对较小,因此常常作为一种有效的分类识别方法,且其所建立的模型也比较客观。基于svm的诸多优点,本文在建立雷声数据库的基础上,使用svm分类方法来对雷声与干扰声进行分类识别。同时通过阅读文献[16-17]可以发现,组稀疏最小二乘回归(group sparse least sqrecalle regression, gslsr)模型常常作为一种分类识别方法用于人脸表情识别领域,本文创新地把gslsr模型应用于音频分类识别领域,检验其分类识别效果,作为一种与svm分类器的对比。
3. 实施方案、进度安排及预期效果
实施方案:
建立雷声音频数据库,分别建立雷声与干扰声、闷雷与响雷、闷雷与干扰声、响雷与干扰声以及三种声音的分类分别进行分类识别;选用is09特征集和is10特征集的基础上,用opensmile对音频文件进行特征提取;使用svm分类方法和gslsr模型对音频特征进行分类,并把两种分类识别效果作对比。
进度安排:
4. 参考文献
[1]alain donzier, joel millet. gunshot acoustic signature specific features and false alarms reduction[c]// sensors, and command, control, communications, and intelligence(c3i) technologies for homeland security and homeland defense iv pt.1, 2005:254-263.
[2] min xu, numunu c. mudduge, changsheng xu, mohan kunkunhulli, qi tian. creating audio keywords for event detection in soccer video[j]. 2003 international conference on multimedia and expo. icme 03. proceedings. ieee computer society, 2003, 2:ii-281-ii-284.
[3] 邢文武, 董雪, 杨子鹏. 声音探测识别报警器的设计[c]// 第三十二届中国(天津)2018’ it、网络、信息技术、电子、仪器仪表创新学术会议论文集. 天津: 天津市电视技术研究所, 2018:317-320.