微信软件中语音转文字的插件开发开题报告
2020-02-20 08:13:47
1. 研究目的与意义(文献综述)
二十年前,中国开始引入移动通信技术,20年间,中国的移动通信产业经历了从无到有、从小到大、从弱到强的艰苦历程。多年以前,人们主要的联系方式还是仅通过电话或者短信联系,随着科技的发展,主要的联系方式逐渐变成了移动端软件上的通信,例如微信等社交软件,很多人联系朋友时第一时间想到的是在微信上给对方发送信息。而承载人们联系信息的主体慢慢从文字变成了语音信息。对于发送方来说,发送一段语音显然会比发送一大段文字要更加方便省事,但对于接受方来说,可能身处一些不适合听语音的环境,因此将语音转换为文字的功能在这个时候就显得十分必要了。当在移动端上语音输入变成用户越来越习惯的一种交互方式,那么专业的语音基础服务,比如语音识别将会有很大的需求,因为这个慢慢会变成用户和很多app的交互方式,前景十分广泛。
在国外,语音识别的研究工作可以追溯到20世纪50年代atamp;t贝尔实验室的audry系统,它是第一个可以识别十个英文数字的语音识别系统。实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(carnegiemellonuniversity)的sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。20世纪90年代前期,许多著名的大公司如ibm、苹果、atamp;t和ntt都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:ibm公司推出的viavoice和dragonsystem公司的naturallyspeaking,nuance公司的nuancevoiceplatform语音平台,microsoft的whisper,sun的voicetone等。其中ibm公司于1997年开发出汉语viavoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统viavoice‘98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。
我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。中科院自动化所及其所属模式科技(pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——pattekasr,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。现如今许多像云之声和科大讯飞这样的企业,一方面提供企业服务,为第三方提供语音服务,另一方面利用技术积累开发面向大众的语音服务。
2. 研究的基本内容与方案
一、研究目标
综合运用插件开发和语音转文字的技术,设计研发微信软件中提取语音转为文字的插件或模块。
二、研究内容
3. 研究计划与安排
2019/2/18—2019/3/18
查阅参考文献,明确选题;
2019/3/19—2019/3/28
4. 参考文献(12篇以上)
[1] 张鹏、姜昊、许力等 eclipse插件开发学习笔记
[2]克莱伯格、鲁贝尔著,周良忠译. eclipse插件开发