基于RNN的说话人身份识别的研究
2022-11-26 12:57:41
论文总字数:15119字
摘 要
说话人识别,也就是声纹识别,属于识别技术的重要代表,一般划分成个体的辨认以及确认两个方面。和另外的一些同类技术相比,声纹识别表现出更为多样的优势,比如更容易得到人们的接受、成本更低一些、配套设备更加简单、可进行远程操作等。如今声纹识别已经在信息领域、银行证券、公安司法、国防军事等领域得到广泛应用。
人工神经网络是基于人工神经元的连接单元或节点构成的集合,这些连接单元或节点通过模拟生物大脑的神经系统来实现模仿生物处理信息的机制,也就是说神经网络是一种通过将许多节点连接起来而构成的计算模型。深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等都是神经网络中的一种,本文将基于此开展对RNN模型的研究。RNN网络即为将序数据设定为输入,在一定的方向上保持递归,同时全部节点单元根据链式实现连接的网络技术。其主要应用于自然语言处理,例如语音识别、语音建模、机器翻译等领域。本文将基于RNN进行说话人识别的研究。
关键词:说话人识别;循环神经网络;语谱图
Research on speaker identification based on RNN
Abstract
Speaker recognition, that is, voiceprint recognition, is an important representative of recognition technology, and is generally divided into two aspects: individual identification and confirmation. Compared with other similar technologies, voiceprint recognition shows more diverse advantages, such as easier acceptance by people, lower cost, simpler supporting equipment, and remote operation. Nowadays, voiceprint recognition has been widely used in the fields of information, banking and securities, public security, justice, national defense and military.
An artificial neural network is a collection of connected units or nodes based on artificial neurons. These connected units or nodes simulate the biological brain's nervous system to mimic the mechanism of biological processing information. That is to say, the neural network is a kind of Connected to form a calculation model. Deep Neural Network (DNN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), etc. are all types of neural networks. This article will conduct research on RNN models based on this. The RNN network is a network technology that sets sequence data as input and maintains recursion in a certain direction, while all node units are connected according to the chain. It is mainly used in natural language processing, such as speech recognition, speech modeling, machine translation and other fields. This article will conduct speaker recognition research based on RNN.
Keywords: Speaker recognition, Recurrent Neural Network, spectrogram
目 录
摘要 I
Abstract II
第一章 引 言 1
1.1 选题背景及意义 1
1.2 研究发展与现状 1
1.3 研究的主要内容及工作安排 2
第二章 声纹识别系统 3
2.1 语音信号预处理 3
2.2 声纹识别的分类 4
2.3 声纹识别的结构 4
2.4 声纹识别模型 5
第三章 循环神经网络 6
3.1 RNN的概述 6
3.2 RNN的结构 7
3.3 激活函数 9
3.4 数据标准化 11
第四章 基于循环神经网络说话人识别的模型实现 12
4.1 系统环境 12
4.2 语音样本库 12
4.3 说话人识别模型的建立 12
4.4 实验结果与分析 14
第五章 总结与展望 16
致 谢 17
参考文献 18
第一章 引 言
1.1 选题背景及意义
随着移动互联网及网络信息技术的飞速发展,智能手机等电子设备得到迅速普及,社会的信息化也随之快速发展。网络冲浪逐渐成为人们日常生活中不可缺少的一环,但个人隐私的安全问题也随之而来,隐私安全一直是人们日常生活中关注的重要问题之一,同时国家与大众对隐私安全问题也越来越重视。传统的身份认证方式以账号、密码和身份证相结合的单一身份认证为主,因此存在着容易被他人复制和盗用等风险,已经不再能够满足人们对更高安全标准身份认证的需求。于是就有人提出了生物认证技术,并且在身份认证领域得到了较大认可,结合了生物认证的身份识别技术因为其更高的安全性在安全领域和日常生活中得到了大量的应用。声纹识别技术便是其中一种新兴安全认证技术,在身份认证领域同样得到了较大关注。
这里论述的声纹,即为通过专业仪器设备所呈现出来的言语信息的声波特征。由于人类发声的过程,需要语言中枢与相关器官之间的合作,涉及到一个十分复杂的生理反应,且个体在发音上存在明显的不同,因此人们的声纹图谱是显然不同的。故此将声纹用于说话人身份识别有着很大优势,同时因为语言信号无需特种设备进行采集,只需要一个麦克风或其他移动通讯设备便可完成,且操作简单,与其他生物识别技术相比具有更加方便自然、成本低廉、可长途操作等一系列优势。
当下,声纹识别技术在我们的生产生活中实现可充分的运用,发挥了积极价值。比如在金融方面,通过这种技术可以对移动设备上登录的人员进行确认,明确相应的身份信息。还可以综合密码等信息,得到更加可靠的判断,避免金融操作风险;在公安检查方面,对于很多案件以及证据的处理、获得,同样可借助此类技术得到积极帮助,及时明确嫌疑人的具体分布或者其他有价值信息;在国防方面,通过这种技术可以判断在交流过程中是否存在目标对象的声音,并对交流的内容进行跟踪分析。或者在传输相应的指令信息时,对于发出的主体进行定位,明确具体的身份。在安保和证件防伪上,这种识别技术可以在银行卡、车辆开启、电脑登录等不同方面,得到良好的运用,发挥重要的安保效果[1]。
剩余内容已隐藏,请支付后下载全文,论文总字数:15119字