面向特定环境导航的语音交互技术研究毕业论文
2021-03-11 00:31:47
摘 要
本次毕业设计主要是在现有技术平台的基础上,搭建一个简单的人机交互系统,集成语音识别,问答匹配,语音合成的功能,从而实现在特定环境(如某大型超市)下的问答式导航。
首先充分调研典型场景,以某大型超市为例,一方面了解了顾客实际的导航需求;另一方面,收集了顾客在询问商品位置时的大量语料,总结顾客表达习惯的特点。
接下来进行系统分析,通过用例分析和功能设计详细介绍了本系统的网络结构、用例需求和功能要点,为后续的系统详细设计打下基础。
然后进行各个模块的设计。在语音识别和语音合成模块,通过学习讯飞语音云平台的相关知识,使用其SDK进行开发,完成了语音识别和语音合成的功能;在问答匹配模块,通过对收集到的语料进行分析,提取出了问句中的关键词,并考虑到超市实际情况为其匹配了对应的答句和辅助路线图,实现了系统的问答功能。
最后在系统实现与测试部分,详细介绍了利用Eclipse开发该Android应用的基本流程与步骤,包括功能集成和界面设计等部分,并进行真机测试,测试效果良好,达到了预期目标。
关键词:问答系统;语音识别;语音合成
Abstract
This graduation design has built a simple human-computer interaction system based on the existing technology platform, and this system has integrated voice recognition, Q amp; A matching, and voice synthesis function, in order to achieve Question-and-answer navigation in a specific environment (such as supermarkets, etc.).
First of all, we had a typical investigation in a large supermarket. On the one hand, we got the actual needs of customers navigation, which verified the necessity of the system design. On the other hand, we collected a lot of corpus when the customers asked products’ location, in order to sum up the characteristics of customer expression habits.
Then, the system analysis was carried out, and the network structure, use case requirements and functional points of the system were described in detail through the use case analysis and function design, which would lay the foundation for the detailed design of the system
And then we designed each module. In the speech recognition and speech synthesis module, through the study of the knowledge of the mobile cloud platform and the use of its SDK, we completed the voice recognition and speech synthesis function; in the Q amp; A matching module, through the collection of corpus analysis, we got the key words of each question, and considered the actual situation of the supermarket to match the corresponding answer and auxiliary road map.
Finally, in the system implementation and testing part, we introduced the basic processes and steps using Eclipse to develop this Android application, including functional integration, interface design and other parts. In the real machine test, the test results were good, so the desired goals has been achieved.
Key Words: Q amp; A system;voice recognition;voice synthesis
目 录
第1章 绪论 1
1.1 研究背景 1
1.2 国内外研究现状 1
1.2.1 国外研究现状 1
1.2.2 国内研究现状 2
1.3 主要研究内容 2
第2章 系统调研与系统分析 4
2.1 系统调研 4
2.1.1 用户需求调研 4
2.1.2 用户语料收集 4
2.1.3 布局环境调研 5
2.2 系统分析 6
2.2.1 Android概述 6
2.2.2 系统网络架构 7
2.2.3 系统用例分析 8
2.2.4 系统功能分析 9
2.3 本章小结 10
第3章 语音识别与语音合成模块设计 11
3.1 讯飞语音云平台 11
3.1.1 平台简介 11
3.1.2 平台使用方法 11
3.2 语音识别模块设计 12
3.2.1 语音识别调用方法 12
3.2.2 语音识别结果 12
3.3 语音合成模块设计 13
3.3.1 语音合成调用方法 13
3.3.2 语音合成结果 13
3.4 本章小结 13
第4章 问答匹配模块设计 14
4.1 问句分析 14
4.1.1 语料处理 14
4.1.2 关键词提取 14
4.2 答句输出 15
4.2.1 辅助图片设计 15
4.2.2 答句设计 16
4.2.3 问答匹配 16
4.3 特殊情形处理 17
4.4 本章小结 17
第5章 系统实现与测试 18
5.1 系统开发环境 18
5.2 系统功能集成 18
5.3 系统界面设计 20
5.3.1 语音识别界面设计 20
5.3.2 主界面设计 21
5.4 系统测试 22
5.5 本章小结 23
第6章 总结与展望 24
6.1 总结 24
6.2 展望 24
参考文献 26
致 谢 27
- 绪论
1.1 研究背景
随着计算机和人工智能相关技术的发展,人与机器之间的交互方式也变得多种多样,例如手势、语音、触摸等。在多种交互方式中,语音交互对人来说是最自然、方便、直接的方式[1]。语音识别和语义理解是人与机器之间实现语音交互的重要条件。其中语音识别是指将人的语音转化为自然语言文本,目前相关技术已经比较成熟,例如科大讯飞公司的“讯飞语音输入法”,已经具备很高的语音识别率;而语义理解是对语音识别出的文本进行分析,并可做出相应回应。该技术同样处于高速发展之中,是自然语言处理中一项研究热点,被广泛用于各种智能问答系统的研发。
自1952年贝尔实验室研发的可以识别十个英文数字的Audrey语音识别系统问世以来,语音智能交互技术不断发展,人工神经网络、隐马尔可夫模型等理论方法被陆续引入语音交互领域。目前已经诞生了比较成熟的语音智能交互产品,如百度公司研发的“小度机器人”。该机器人基于百度强大的搜索功能,以最自然的方式与用户进行信息交互,曾被应用于肯德基点餐、电视节目主持等多个领域。再比如苹果公司推出的ios操作系统所包含的Siri助手,借助于它,人们可以通过语音完成查找联系人,打开手机某项应用程序,网上搜索等问答或者操作任务[2]。