非特定人语音控制音乐播放器软件系统设计文献综述
2020-04-10 16:30:03
文 献 综 述
1.概述
语音识别是近年来十分活跃的一个研究领域。从识别对象的类型来看,语音识别可分为特定人语音识别和非特定人语音识别。特定人是指只针对一个用户的语音识别,比较简单,能得到较高的识别率,但使用前必须由特定的用户输入大量的发音数据并对其进行训练。非特定人系统是用很广泛的说话人语音来训练识别系统模型,在保证有足够的数据来精确刻画语音单元的各种复杂的时变特性和协同发音的同时,也可忽略说话人之间的差异,从而降低了系统对于单个的说话人建模的精度[1],因此相对特定人语音识别,非特定人语音识别则可用于不同的用户,这种识别系统的通用性好、应用面广,具有更广阔的研究前景,但难度也较大
2.语音识别的发展
语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人识别系统的识别精度更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交互机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等,也包括语音识别和语音合成功能[2]。
3.语音识别系统结构:
(1)语音信号预处理与特征提取:
语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩[3]。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息[4]。
(2)声学模型与模式匹配
声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。
声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。