微信软件中语音转文字的插件开发毕业论文
2021-04-05 19:16:24
摘 要
本文借助安卓开发软件Android Studio开发了一款应用,实现语音单聊界面,并且集成科大讯飞语音识别SDK,实现语音转文字功能,所得结果对于设计录音转换文字的安卓应用开发具有重要的指导意义。
论文主要研究了安卓开发的相关知识,通过自定义控件实现了很多丰富的功能,设计实现了一个仿微信安卓语音单聊界面,用户可以像微信一样发送语音、撤回消息,同时集成了科大讯飞的语音听写SDK,研究了讯飞开放平台开发的相关知识,实现将发送的语音消息转换成文字的功能,并支持汉语(普通话)和英语两个语种的转文字功能。
本文的特色:涉及安卓开发实战,实用性强,介绍了仿微信的语音聊天转文字功能的实现。
关键词:安卓;语音聊天;语音转文字; MediaCodeC;MediaRecorder
Abstract
This paper develops an application with the help of Android development software Android Studio to realize the single voice chat interface, and integrates the voice recognition SDK of iflytek to realize the function of voice to text. The results obtained have important guiding significance for the development of Android applications for recording to text。
Paper mainly studied the android development of relevant knowledge, through the custom control to realize the function of a lot of rich, design implements a copy WeChat android voice chat interface, the user can send voice, like WeChat withdraw, and integrate the hkust xunfei dictation SDK, studied the xunfei open platform development of related knowledge, implementation will send voice message into the function of the text, and support the Chinese (mandarin) and English two languages, text functions.
This article features: involving android development practice, practicality, introduced the imitation WeChat voice chat to text function.
Key Words:Android;Voice chatting;Speech-to-Text;MediaCodeC;MediaRecorder
目录
第一章 绪论 1
1.1 研究背景 1
1.2 研究现状 1
1.2.1 国外研究现状 1
1.2.2 国内研究现状 2
1.3 论文主要工作 2
1.4 论文结构 3
第二章 应用分析 4
2.1 需求分析 4
2.2 技术方案 4
2.2.1 开发工具 4
2.2.2 开发语言 5
2.2.3 技术路线 5
第三章 系统设计 6
3.1 模块划分 6
3.2界面设计 6
3.3 功能设计 8
第四章 关键问题及解决方案 9
4.1 MediaRecorder 9
4.2 MediaCodeC 10
第五章 系统实现 12
5.1 语音单聊界面 12
5.1.1 UI界面 12
5.1.2控件功能 13
5.1.3录音管理 16
5.2 语音转文字模块 17
5.2.1音频转码 17
5.2.2语音转文字 18
第六章 应用测试 20
6.1 测试环境 20
6.2 测试结果 20
6.3 测试结论 26
第七章 总结与展望 27
7.1 工作总结 27
7.2 收获与展望 27
参考文献 29
致 谢 30
第一章 绪论
1.1 研究背景
二十年前,中国开始引入移动通信技术。多年以前,人们主要的联系方式还是仅通过电话或者短信联系,随着科技的发展,主要的联系方式逐渐变成了移动端软件上的通信,例如微信等社交软件,很多人联系朋友时第一时间想到的是在微信上给对方发送信息。而承载人们联系信息的主体慢慢从文字变成了语音信息。对于发送方来说,发送一段语音显然会比发送一大段文字要更加方便省事,但对于接受方来说,可能身处一些不适合听语音的环境,因此将语音转换为文字的功能在这个时候就显得十分必要了。语音是智能人机交互的最自然、最便捷的手段, 近些年来, 语音正在日益影响和改变人们的日常生活[1]。在移动端上,用户越来越习惯于使用语音进行交互,那么对于专业语音基础服务会有很大需求,因为这个慢慢会变成用户和很多App的交互方式,前景十分广泛。
1.2 研究现状
我们经常可以听到语音识别[3]这一概念,其实就是指让机器识别理解语音信号,然后得到相应的文本信息。这是一门刚发展起来的新型的技术,已经取得了不少的成果,各国对于这方面的研究都十分重视。
1.2.1 国外研究现状
查阅百度百科中对语音识别的介绍,可以看到:在国外,最早在20世纪50年代,语音识别的研究就已经开始了,ATamp;T贝尔实验室的Audry系统是第一个可以识别9个英文数字的语音识别系统[2]。英国的Denes等人在1960年成功地研究出第一个语音识别系统。
20世纪80年代末,实验室人们在一个系统中集成了大词汇量、连续语音和非特定人的特性,取得了重大的突破。,
语音识别技术的产品化是在进入90年代之后的事情了,如苹果、IBM这些公司都斥巨资研究语音识别的实用化,致力于将语音识别围绕在我们身边,例如我们熟知的Siri语音助手等,都说明了语音识别技术已经深入了我们的生活。
1.2.2 国内研究现状
在国内,我国的语音识别[15]研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别[2]。到了80年代,中国的计算机应用技术逐渐普及,数字信号技术也得到了进一步的发展,国内环境有了改善,研究语音技术的门槛对于许多单位来说也没有那么高了。而同时期,语音识别技术在国际上再次成为了研究的热点,十分迅速地发展。就在这种形式下,国内许多单位纷纷投入了这项研究。1986年3月,中国启动了高科技发展计划(863计划),语音识别作为智能计算机系统研究的重要组成部分,被特别列为研究课题[2]。在863计划的支持下,中国开始研究有组织的语音识别技术,并决定每两年举办一次语音识别专题会议。从此,我国的语音识别技术进入了一个前所未有的发展阶段。现如今有许多企业提供语音服务,比如云之声和科大讯飞这样的企业,在企业服务的同时也为第三方提供语音服务,并利用技术积累开发面向大众的语音服务。
1.3 论文主要工作
本文设计实现了一个基于安卓的语音转文字的模块,所谓插件[13]的概念就是宿主APP去加载以及运行插件APP,由于微信中不提供访问聊天语音的API接口,所以首先选择设计一个安卓应用,再实现聊天语音转文字的功能。因此,该模块可以分为两个部分:
(1)通过对安卓开发的学习,设计一个仿微信的语音聊天界面,使其能模拟微信语音聊天的场景