WAV音频切分及原文匹配技术在数字出版中的研究与应用文献综述
2020-04-26 11:54:33
1.1、研究背景及目的
随着信息技术的高速发展,多媒体信息呈爆炸式增长,人们开始步入大数据时代,传统纸质书作为一种内容的载体,已经远远不能满足人们对信息内容获取的需求[1],而音频作为一个很重要的内容资源,用听的形式给人们传递信息,这在21世纪就已经比较成熟。但是社会的高速发展,人们的生活节奏越老越快,时间被碎片化,“碎片化学习”观念已经深深的得到了人们的认可。所以将长篇的内容分割成若干的小部分再呈献给学习者是至关重要的。数字出版业是当前出版业发展最迅速的板块之一。从世界范围来看,现代出版业正经历着以数字化、信息化、网络化为核心的技术革命,形成了以数字出版为创新引领的新兴业态。数字出版产业通过加强技术创新、培育新业态和推进标准制定,紧紧抓住发展的机遇,成为出版业新的经济增长点。[17]本课题将采用智能化的音频处理技术,与图书内容相匹配,并将该技术运用于数字出版行业,为融合出版做出一点贡献。
1.2、国内外的研究现状分析
当前,国内很多新闻出版部门都建立了线性文件非线性编辑系统,针对音频、视频文件管理进行管理,这些系统大多从当前应用出发以编辑处理为主,同时该系统投资较大,还有相关的硬件做支撑,这些都是从业务需求管理需求来实现的,但如果从普通的利用和保存角度来讲,这个投资不仅仅过于昂贵,而且需要专业的知识才能应用,存在较大的使用瓶颈,这样无法进行精细化的利用.在国外,由于信息发展比较迅速,有些部门已经尝试将音视频借助软件进行分割和重组的方式,大部分都是借助成熟的会声会影作为集成。取得了一些成果,但比较好的解决音频分割、合并以及声音与视频的同步系统也没有搜索到,特别是借助系统本身的方式进行管理切割的而且能结合到数字出版行业的,没有搜索到相应文档。本课题采用基于音轨波形分割法与文本匹配技术相结合,将音频线智能化切割,以音频加字幕的形式应用到数字出版行业中。
1.3、研究意义
音频文件是把语音信号离散化的数字文件,wav格式的音频文件是常用的二进制音频格式,广泛应用于语音信号处理、语音识别、语音合成等领域[6],WAV是微软公司(Microsoft)开发的一种声音文件格式,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持,该格式是最接近无损的音频格式。在实际使用过程中往往需要把一整段音频文件切分或者按照相应的时间戳播放,在有声读物播放过程中,需要将音频和文字匹配起来,达到“视”,“听”双向结合,提高知识获取效率。虽然对于音频的处理技术已被广泛应用,但是在传统出版行业数字化转型中尚未合理的运用起来,纸质书电子配音资源依旧在光盘中,可光盘介质在如今使用率下降,几乎淘汰。如果将音频按照语义或者停顿时间切分出来,识别成文字与原文对照,匹配成字幕形式,用户在听书时,可以在屏幕上即时看到字幕,此技术在现代数字出版行业中的研究与应用有着重要意义。{title}
2. 研究的基本内容与方案
{title}
2.1、研究(设计)的基本内容
1、如何将音频信号处理成数字信号并显示出音频音轨;