嵌入式语音控制系统的设计与研究文献综述
2020-04-14 17:14:08
1.1研究目的及意义
当今社会,随着嵌入式微处理器制造工艺和数字信号处理技术的发展,便携式或者固定式的嵌入式设备已经广泛应用于工业控制、交通管理、智能家电、电子商务和环境监测等领域。但随着对设备智能化要求的提高,传统的人机交互手段已经无法满足现在人们对设备智能化的要求,而嵌入式语音控制系统可以实现更加便捷的人机交互,使设备真正意义上成为人们的智能助手。
嵌入式语音控制系统是基于语音识别的嵌入式系统。嵌入式语音控制系统的特点是不用或者尽量少用双手和硬件装置来对设备进行操控,而是直接对用户发出的有效语音进行识别并根据识别的结果来对设备进行操作或者直接对用户做出反应。嵌入式语音控制系统的意义在于在用户双手处于工作状态或者用户远离设备无法直接对设备进行操作时用户可以通过语音来让设备完成一系列的操作。
目前,随着语音识别技术的发展和数字信号处理芯片性能的不断提升,嵌入式语音控制系统开始走向成熟,其灵活便捷、低功耗、易于操作的特性使人工智能语音助手具有极大的发展潜力。人工智能语音助手已经广泛应用于消费电子、智能家居、移动或可穿戴设备以及智能检测等领域。
1.2国内外的研究近况
语音交互作为人机交互发展到一定高度后必不可少的交互手段,是一直以来国内外的研究热点。语音识别技术的研究开始于20世纪50年代,随着数字信号处理领域的专家创造出快速傅里叶变换和数字滤波器等方法,语音信号处理得到了快速发展,20世纪60年代时产生了动态时间规整技术和线性预测编码技术,这一时期的技术可以完成特定人、小词汇量的孤立词识别。到了20世纪80年代,矢量量化和隐马尔科夫模型的技术被应用于语音识别技术中,给语音识别带来了巨大的突破,其中隐马尔科夫模型识别技术已经成为现代语音识别的主流技术,现有的绝大多数非特定人、大词汇量、连续语音识别系统都是基于隐马尔科夫模型的,同时隐马尔科夫模型也可用于孤立词语音识别系统,且识别率高于动态时间规整方法,具有广泛的适用性。同时,人工神经网络技术也开始得到研究,人工神经网络是一种分布式并行处理结构的网络模型。基于人工神经网络的语音识别系统一般由神经元、训练算法以及网络结构这三部分构成。人工神经网络借鉴人脑神经元的结构及其连接机制,采用大量的简单处理单元广泛地连接起来构成一种复杂的信息处理网络。这种网络具有与人脑相似的学习记忆能力、知识概括和联想推理能力。将人工神经网络应用于模式识别中具有速度快、识别率高等优点。但人工神经网络技术存在训练时间长、动态时间规整能力弱以及实现起来较复杂的缺点,且识别率并不见得比基于统计模型的语音识别好,目前仍然处于实验研究阶段。
进入21世纪后,语音识别的实用化技术并没有大的突破,但是随着嵌入式微处理器和数字信号处理芯片的发展,基于语音识别的嵌入式控制系统开始走向成熟。由于嵌入式设备资源有限,所以嵌入式设备一般需要使用专门的语音信号处理芯片。目前,常用的语音识别芯片有凌阳公司的SPCE061A,科大讯飞的XFS5152CE和ICRoute公司的LD3320芯片。
其中,凌阳公司的SPCE061A是一种需要训练的16位控制芯片,拥有专口针对处理语音信号的能力,可完成对于特定人语音识别训练和识别的功能。科大讯飞的XFS5152CE芯片是轻量级的主要用作语音合成的芯片,是不需要训练的非特定人的语音识别芯片,但其语音识别的命令存储不能超过30条。ICRoute公司推出的LD3320芯片是基于关键词语列表的无需训练的识别芯片,其在对于非特定人和中文识别领域非常成熟,并且存储量也相对较大,是一种接近自然语音识别的专用芯片。
{title}2. 研究的基本内容与方案
{title}2.1研究内容