与文本相关的说话人识别系统设计文献综述
2020-04-28 20:17:53
一.课题意义: 伴随着网络化、信息化时代的到来,传统的以密码为特征的身份认证技术暴露出巨大的弊端,很难满足高安全性和长效安全性的要求。
语音是人的自然属性之一,不会丢失或遗忘。
说话人发声器官的生理以及后天形成的行为存在差异,每个人的语音都带有强烈的个人色彩,故声纹信息具有唯一性。
此外语音信号容易采集,系统设备的成本低等优势都为说话人识别技术提供了广阔的应用前景[1]。
根据说话人的训练和测试语音文本,说话人识别可分为与文本无关的和与文本相关两类.前者识别过程中建立模型需要的语音数据量大,而且单纯依靠说话人声纹信息的方式识别率低,且存在说话人语音被窃取录制,语音被模仿等风险,在安全性能要求很高的情况下,很难单独使用这项技术进行识别.而与文本相关的说话人识别要求训练和识别的时候使用内容相同的语音文本,仅采用较少的训练和测试语音数据就能达到较高的识别率;同时语音文本内容也是识别过程中一项重要的判定信息,相同文本的语音几乎是不可能被窃取录制,在文本未知情况下,也不能被模仿,安全性能很高,具有很大的实际意义及研究价值。
在说话人识别的多数应用案例中,与文本相关的说话人识别占了多数,比如微信近期推出的声纹锁[2]。
二.研究现状: 中国人民银行日前正式对外发布《移动金融基于声纹识别的安全应用技术规范》金融行业标准,这意味着声纹识别技术得到金融监管部门的认可。
这也为声纹识别技术进入移动金融领域解决了标准难题。
在世界范围内,声纹识别技术正广泛应用于安全验证、控制等诸多领域,特别是基于电信网络的身份识别。
目前我国声纹识别技术虽然在细分领域中的应用也没有全面爆发,但是,随着安防步入智能化时代,语音识别将迎来更多成长机会、更大的发展空间。