基于Android的语义识别的应用程序开发文献综述
2020-04-14 17:28:23
-
研究目的及意义
随着现代科学的发展,移动互联网已迅速成为当今世界发展最快、规模最大的市场前景最好的行业。但由于现有的移动终端设备交互方式存在诸多局限性,譬如键盘太小,输入文字不便;以及无法处理特定场景下的交互,如驾车和步行等情形。所以人们在与机器的信息交流中,需要一种更加方便、自然的方式,而语言是人类最重要、最有效、最常用和最方便的通信方式。自从人类可以制造各种机器以来,人们就有一个理想,那就是让各种机器能“听懂”人类的语音并能按人的口头命令来行动,从而实现人机的语言交流。这就很容易让人们想到能否用人类的自然语言代替传统的人机交互方式(如键盘、鼠标等)。
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition 简称ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列,也就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。自动语音识别技术所要解决的问题是让计算机能够“听懂”人类的语言,将语言中包含的文字信息“提取”出来。ASR技术的出现,使人类希望机器“听懂”人类的语言的理想得以实现。
语音识别技术是一门交叉学科 ,语音识别正逐步成为信息技术中人机交互的关键技术,语音识别技术与语音合成技术的结合,开启了人机交互方式的新时代,它将彻底解放用户的双手与眼睛,使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。当今,语音识别产品在人机交互应用中占到越来越大的比例。可以预见,语音操作将会是未来很长一段时间内智能终端继键盘和触摸操作之后的必然发展趋势。
-
国内外研究现状
语音识别的研究工作可以追溯到20世纪50年代ATamp;T贝尔实验室的Audry系统,它是一个可以识别十个英文数字的语音识别系统。
2010年10月28日,“科大讯飞”语音云正式发布,全球首个同时提供语音合成、语音搜索、语音听写等智能语音交互能力的移动互联网智能交互平台——“讯飞语音云”正式上线。所谓智能语音交互,通俗的说就是能让移动互联网的各种设备和服务像人一样“能听会说”:将人的语音转换成对应的文字,或者将文字转换成清晰流畅的语音朗读出来。同时发布的还有该平台的示范应用——“讯飞语音输入法”体验版,智能手机安装后,可以用语音来进行QQ、短信、微博等内容的输入,使原来输入繁琐的短信书写和在线手机聊天等应用更加便捷有趣。
语音技术是Google在Android1.6版本中加入的一项比较重要的新功能。世界上第一次把语音识别移植到嵌入式设备上的是飞利浦于1998年所推出的Genie 828c语言拨号的手机,但那时候的语音拨号还比较原始,只能辨认英文发音,而且成功率也很低。时至今日,语音识别技术在手机应用中已经有了重大的发展。继2009年年底正式发布了最先应用于诺基亚S60平台之上的中文语音搜索服务之后,Google官方又发布了一个为Android开发的语音控制应用“Voice Action”,这个语音控制系统支持用户通过语音指令发送电子邮件、短信、拨打电话和获取驾驶导航信息等。
2. 研究的基本内容与方案
{title}从键盘到多点触摸再到语音交互,语音技术已经广泛应用于市场上的APP产品。而Siri的出现更是让人们见到了语音助手的优点和便捷之处,打电话、发信息、找应用等等操作,只要一个语音口令就可以。讯飞开放平台是智能交互技术的服务平台,为开发者提供各种服务,包括语音基础能力类的合成、识别,语音定制服务类的语音唤醒、开放语义和语音云,模式识别类的人脸识别,开放统计类的移动应用分析等等。作为全球首个智能语音交互平台,让广大开发者在开发过程中获益匪浅。
本应用就是基于科大讯飞的开放平台开发的,使用它的MSC(Mobile Speech Client,移动语音终端)Android版SDK,应用开放语义、语音合成服务的接口,将用户的语音信息传到云端,分析语音的意图,给出对应的回答。并将回答以JSON形式返回到Android手机,在手机端经过解析JSON数据后,将语义解析结果利用科大讯飞的SDK中的在线语音合成功能将结果说出。从而实现语义识别、智能问答、垂直搜索,达到释放双手、人机智能交互的目的。