基于choregraphe机器人语音控制技术研究文献综述
2020-04-14 17:19:06
1.1背景及国内外研究现状
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。20世纪50年代ATamp;T贝尔实验室的Audrey系统,它是第一个可以识别十个英文数字的语音识别系统,开辟了语音识别的先河。在20世纪60年代,对语音信号的研究主要是特征分析和提取。人们发现人耳对语音中不同频率有着不同的分辨率和反应强度,从而提出临界频带理论(Critical BandTheory)。1966 年MIT的Gold等人用16通道滤波器组、基音和浊音检测器以及一台计算机构成了一个语音识别系统。至此,语音识别的研究开始起步。
到现在为止,语音识别技术取得显著进步,识别精度大大提高,应用得到广泛发展。目前,语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。例如,现今流行的手机语音助手,就是将语音识别技术应用到智能手机中,能够实现人与手机的智能对话功能。其中包括美国苹果公司的Siri语音助手,智能360语音助手,百度语音助手等。
我国对语音识别技术的研究起步稍晚于先进国家,但其发展很快,成果显著。1987年,国家《智能计算机主题》专家组为语音识别技术正式立项,将其作为智能机器人的一个研究领域加入到国家“863”计划之中。从1991年开始,每隔一至两年,专家组举行一次全国性的语音识别系统测试。80年代末,中国科学院声学所和清华大学在无限词汇的汉语听写机的研制上取得了重大突破。90年代初,四达等公司推出了首批汉语听写机产品。中科院自动化研究所和清华大学研制出的可以对任意人普通话发音语句进行实时识别的系统,最高识别率接近99%,迄今,我国语音识别水平已接近国外最高水平。
人类生活中存在很多语音控制的产品,主要以家电和汽车内饰为主,例如:KD-LX50车用声控盒,InVoca声控遥控器等。除此之外,目前智能手机大规模的发展,在各大智能手机的操作系统中都集成了语音识别,例如: Android、 Symbian、 WindowsPhone等操作系统,腾讯公司的即时通讯软件实现了语音识别,代替传统的输入法直接利用语音进行输入,为了提高用户体验Google 公司的搜索输入框开始支持语音输入,国内最流行的输入法软件搜狗输入法也在开始研发语音输入法。在互联网流行的今天,语音识别在输入法、搜索、自助服务、以及客服机器人等方面都有广泛的应用。
但是语音控制还存在一定的局限性,机器人并不能自主的去分析人类的语言并自己做出反应,他只能在我们预先设定好的库中去寻找相应的语言并做出我门事先设定的动作,对超出库中的语句没有办法去处理,由于所面临的的情况太多了,所以我们只能去提取出对应的关键字,并以这些关键字在我们预先设定的库中去匹配并做出相应的动作。
1.2目的及意义
机器人是能够自动执行任务的机器装置,是一种仿生的高科技产物。它能够帮助或者取代人类完成各种工作,在人类的日常生活中以及工业、农业、反恐、防爆、生物医学、航天航空、海洋能源开发、空间探索等各个领域做出了杰出的贡献,得到越来越多的应用。随着计算机技术和人工智能的高速发展,能够自动执行任务的智能机器人成为目前研究领域的热点。
语音是指人说话的声音,是人类互相交流、获取资源和传达信息的一种手段。 随着科技水平的不断提高,人们希望通过语音也可以和机器进行通信,试图让机器能听懂人类的语言,了解人的意图,从而根据人的命令做出相应的动作,语音控制技术便应运而生。语音控制技术集语音识别技术与控制技术为一体,将语音信号作为研究对象,语音识别的目的就是让机器通过识别和理解过程把语音信号转变为相应的文本和命令,使得人机可以进行交流。
语音识别技术作为智能计算机研究的主导方向和人机通信的关键技术之-,得到了越来越多的关注。比如说可以通过语音识别技术来控制大型工业机器的操作,控制无人驾驶的汽车自动行驶,控制智能家居,控制保险柜等。而通过语音控制的智能机器人,可以进行艰难环境下的救援活动,可以进行深海或太空探险,可以用于家庭服务等。此外,语音识别技术在军事、通讯、服务、医疗、银行、汽车电子等领域也有广泛用途。
随着机器人越来越普遍地融入人们的生活,通过按键、摇杆等传统的人机交流方式操作比较麻烦,而将语音识别技术应用于机器人领域,使机器人按照人类的语音命令去执行指定任务,可解决人机交流的障碍,改变传统的人机接口方式,使人机交流更加便捷。这既是将语音识别从理论转化为实用的有效证明,也是机器人智能化的重要标志之一,是当今自动化发展水平的体现。{title}2. 研究的基本内容与方案
{title}2.1.研究的基本内容及目标
NAO机器人是一款可编程人形机器人,集成摄像头,麦克风,触碰,超声波,红外线等多种传感器,具备对外部环境综合感知和交互的能力,NAO机器人的编程语言有很多,比如c,c ,python等,NAO 的编程软件也有很多,接下来我们使用choregraphe软件,该软件使用图形化,模块化编程,其编程方式简单,直观易懂,我们可以通过该软件对机器人进行各种程序的编写,以达到以下几个研究目标:
(一) 机器人可以在短时间内智能识别我们说话,并且识别的准确率达到90%以上,