机器人语音识别技术研究文献综述
2020-04-30 16:10:42
语言是人类相互交流信息的手段,在高速发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成以及增强是整个数字化通信网中最重要、最基本的组成部分之一。
语音识别是语音信号处理中非常重要的应用技术,正逐步成为信息技术中人机交互的关键技术。目前,语音识别技术己经在诸多领域得到应用。随着信息产业的迅速发展,包括计算机、办公自动化、通信、国防、机器人在内的各个领域,都迫切需要采用语音识别技术来改变以往不方便的人机交互方式。
与机器进行语音交流,让机器明白人说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的一种技术,其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并做出相应的反应[fll。如果能把这种具有语音信息处理能力的机器和设备纳入人的语音交互对象,使之像人一样具备听、说、写功能,能对语音做出理解和反应,并在交互方式上不受时间和地点的限制,将使人类的生活和工作方式发生革命性的变化。
在机器人研究领域,智能机器人成为研究的热点。智能机器人系统综合运用了多种人工智能技术,让机器人听懂人的语言,语音识别技术的重要性也得以体现。人机交互系统是当前机器人控制系统的重要组成部分,机器人的听觉与语言系统以语音识别和语音合成技术为基础,语音识别使机器人能听懂人的自然语言,由识别得到的信息可以作为声控信号应用到机器人的多种技术领域。因此,研究面向机器人对话的语音识别关键技术具有重要的意义。
机器人发展至今,对于机器人的控制,语音控制无非是最自然、最便捷的控制方式。从国内外对语音识别技术的研究现状来看,与机器人进行交流,把语音识别技术应用于机器人,正成为目前研究的热点。
语音识别技术使机器人能听懂人的自然语言,由识别得到的信息作为声控信号应用到机器人的多种技术领域。将语音识别技术应用于机器人为使用者带来了极大的方便。因此研究并开发实用的机器人语音识别系统对于机器人的广泛应用具有重要的意义。
许多发达国家如美国、日本、韩国以及IBM, Apple, ATamp;T等著名公司都为语音识别系统的实用化开发研究投以巨资。我国的语音识别研究工作一直紧跟国际水平,国家也很重视。
我国的语音识别研究工作最早开始于中科院声学所。50年代后期,中科院声学所用频谱分析的方法研究了汉语10个元音的语音识别,到70年代后期,构建了基于模板匹配的孤立词语音识别系统。在80年代后期,主持研究了八五期间中科院人机语音对话研究项目。与此同时中科院自动化所等研究所和北大、清华等国内大专院校相继开展了语音识别研究,都在中国的语音识别研究的方向和内容等方面起了积极的催化和引导作用,取得了高水平的科研成果。
2. 研究的基本内容与方案
{title} 从研究现状来看,作为语音识别的标志性技术的无限词汇量、非特定人、连续语音识别系统。在特定情况下仍达不到很好的效果我们要增强在不同环境下对不同说话者不同说话内容识别的稳定性。
拟从五个方面进行技术方案的实施
(1)预处理:包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的选取、端点检测、语音分帧以及预加重等处理工作。
(2)特征提取:从语音信号中提取用于语音识别的有用信息,去掉冗余参数,提取反映语音本质特征的声学参数,如平均能量、平均过零率、共振峰等,并提取特征参数,如线性预测倒谱系数(Linear Prediction Cepstrum Coefficient LPCC )、Mel频率倒谱系数(Mel Frequency Cepstrum Coeficient, MFCC)等。
(3)模式匹配(识别算法):这一部分是整个语音识别系统的核心,它是根据一定规则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则),计算输入特征与库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语义信息,将相似度最高的模式所属的类别作为识别的中间候选结果输出,得到最佳的识别结果。
(4)参考模式库:在识别之前首先建立参考模式库,通过讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。
(5)后处理模块为可选模块,对候选识别结果继续处理,通过语言模型、词法、句法、和语义信息的约束,得到最终的识别结果。