微信软件中语音转文字的插件开发文献综述

2020-04-15 09:42:54

1．目的及意义

二十年前，中国开始引入移动通信技术，20年间，中国的移动通信产业经历了从无到有、从小到大、从弱到强的艰苦历程。多年以前，人们主要的联系方式还是仅通过电话或者短信联系，随着科技的发展，主要的联系方式逐渐变成了移动端软件上的通信，例如微信等社交软件，很多人联系朋友时第一时间想到的是在微信上给对方发送信息。而承载人们联系信息的主体慢慢从文字变成了语音信息。对于发送方来说，发送一段语音显然会比发送一大段文字要更加方便省事，但对于接受方来说，可能身处一些不适合听语音的环境，因此将语音转换为文字的功能在这个时候就显得十分必要了。当在移动端上语音输入变成用户越来越习惯的一种交互方式，那么专业的语音基础服务，比如语音识别将会有很大的需求，因为这个慢慢会变成用户和很多App的交互方式，前景十分广泛。

在国外，语音识别的研究工作可以追溯到20世纪50年代ATamp;T贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。20世纪90年代前期，许多著名的大公司如IBM、苹果、ATamp;T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking，Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper，Sun的VoiceTone等。其中IBM公司于1997年开发出汉语ViaVoice语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice‘98。它带有一个32，000词的基本词汇表，可以扩展到65，000词，还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。

我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下，系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串)，这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%;并且可以识别普通话与四川话两种语言，达到实用要求。中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。现如今许多像云之声和科大讯飞这样的企业，一方面提供企业服务，为第三方提供语音服务，另一方面利用技术积累开发面向大众的语音服务。

本次研究的目的是对于微信软件中语音转文字的插件开发，分析插件开发工具，研究语音转文字的方法，实现一个从微信中提取语音转为文字的插件或模块。

{title}

2. 研究的基本内容与方案

{title}

一、研究目标

综合运用插件开发和语音转文字的技术，设计研发微信软件中提取语音转为文字的插件或模块。

二、研究内容

1、分析插件开发工具

本次设计中要应用eclipse进行插件开发，因此需了解eclipse开发插件的过程，并深入学习插件开发。

2、研究语音转文字的方法

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码