基于聚类的双人混合语音分离方法研究与实现文献综述
2020-04-14 17:21:42
语音是人们进行交互的基础,是获取信息的有效途径。随着科学技术的不断进步,语音信号处理也得到了迅猛发展,并服务于其它相关的科研领域。语音信号处理涉及到语音编码、语音分离、语音识别、语音增强、语音合成等多个方面的技术,这些技术之间又彼此相互联系,语音分离更是作为语音识别和语音合成的重要基础而占据着语音信号处理的重要地位。近些年来,伴随着机器学习的热潮,越来越多的科研学者加入到语音信号处理的行列中来。因此,语音分离技术得到了广泛研究,成为语音信号处理中的热点问题与技术基石。
语音分离技术是指通过运用一定的方法从接收到的混合语音信号中分离出个体语音信号的信号处理技术。语音分离问题起源于“鸡尾酒会效应(Cocktail PartyEffect)”,即人的一种听力选择能力,是指在某种情况下,人类能够将注意力集中于某一个人的谈话中而忽略背景中其他的对话或噪音。这个现象被提出后迅速引起了科研人员的广泛重视,相关的语音分离技术也得到了迅猛的研究与发展。早在20世纪90年代,作为盲源信号分离技术的一个重要分支,语音分离充满着诸多的困难与挑战。在此之后,研究人员发现人类的听觉心理和生理模型可以很好地应用于语音分离问题,但如何让计算机实现这个模型却一直困扰着众多学者与研究人员。20世纪80年代至今,随着机器学习和深度学习的不断发展,语音分离发展成为信号处理的热点问题,全球学者和科研人员在语音分离方面进行了积极的研究和探索,不断改进已有的语音分离技术,不断涌现新的语音分离技术。在当今的语音分离研究领域,主要有以下三类语音分离方法:基于独立成分分析(IndependentComponent Analysis, ICA)的语音分离方法、基于计算听觉场景分析(Computational AuditoryScene Analysis, CASA)的语音分离方法和基于空间滤波(Spatial Filtering, SF)的语音分离方法。
聚类分析(Cluster Analysis)是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性。一般把数据聚类归纳为一种非监督式学习。聚类作为数据挖掘领域的一个重要模块,它被广泛应用于各种各样的领域中,如市场分析、生命科学、数据挖掘、模式识别等。其中,聚类在模式识别中又主要应用于语音识别、字符识别等细化方向,它在识别数据的内在结构方面具有极其重要的作用。聚类分析作为一种非监督式学习,已经衍生出越来越多的聚类算法,其中比较实用的聚类算法有如下5种:K-Means聚类算法、Mean-Shift聚类算法、DBSCAN聚类算法、期望最大化EM聚类算法、层次聚类算法。
本文将使用一种基于聚类的方法对混合语音数据进行分离处理,并与其他的语音分离方法的效果进行比较和分析。
在1953年Cherry提出“鸡尾酒会效应”后,语音分离技术得到了长足发展,已经在信号处理领域被研究了几十年。根据麦克风的数量,分离方法可分为单声道方法和麦克风阵列方法。单声道分离包括ICA和CASA两类语音分离方法,麦克风阵列分离则是基于空间滤波(SpatialFiltering, SF)的语音分离方法。
基于独立成分分析(Independent Component Analysis, ICA)的语音分离方法是近年来提出的非常有效的单声道语音分离方法,它通过寻找多维数组中的统计独立和非高斯成分来对声源信号进行分离。它作为信号分离的一种有效方法而受到广泛关注,最早应用于盲源信号分离。ICA最早由法国学者Juten和Herault于1991年首次提出。1999年,芬兰的研究者Hyvarinen实现了基于FastICA的语音分离方法。随后的十几年里,不断有改进方案和新的算法提出,ICA一直在持续发展。相比于国外的迅速发展,国内的研究进度相对滞后,相关的研究文献和分离方法的提出也较少。但随着国内高等院校对ICA的不断研究,多位教授和研究学者出版了ICA相关专著并提出了各类改进的分离方法。ICA因其稳定性高、迭代速度快,已成为最常用的语音分离方法之一。在理想环境下,运用ICA可以达到很好的分离效果,但在混响环境下无法保证分离后语音信号的高质量。
基于计算听觉场景分析(Computational Auditory Scene Analysis, CASA)的语音分离方法的研究开始于20世纪70年代,加拿大心理学家Albert Bregman在深入研究了人类听觉方法中多信息流的检测与分离基本原理后,提出了CASA方法的基础理论和重要准则,即独占分配准则和闭包连续准则。独占分配准则是指,在某一时刻,人类听觉方法中的诸多感官要素只能对唯一的声音流起作用;闭包连续准则是指,对于短时进入听觉感官要素的非连续语音信息,人脑能够合理地将其组织起来,从而恢复得到语音信号的完整信息。此后,诸多学者基于以上准则在CASA的语音分离方法中,通过模拟人类听觉方法,建立人类听觉模型,使其具有类似人类听觉方法分离噪声环境下混合语音信号的能力。几十年来,国内外研究者都不断地提出各种基于CASA的语音分离方法,CASA得到了长足发展。
基于空间滤波(Spatial Filtering, SF)的语音分离方法是处理麦克风阵列的分离方法,其原理是通过恰当的阵列结构增强从特定的方向到达的信号,进而削减来自其它方向的干扰。麦克风阵列的相关技术早在20世纪80年代就开始得到研究,到了90年代,人们开始认识到麦克风阵列在语音信号处理中的优势所在并开始进行大量的研究和实践。如今,麦克风阵列技术已广泛应用于雷达、无线通信、生物医学等领域,基于麦克风阵列的诸多语音信号处理方法也在视频会议、移动通信、助听器和高端智能手机等实际应用上普遍使用。利用麦克风阵列进行语音分离,能够解决很多单声道分离方法的棘手问题,但麦克风阵列相关软硬件的搭建和支持使得利用麦克风阵列进行语音分离的研究门槛变高。
在目前众多的语音分离技术中,绝大部分是由有监督的机器学习来完成的。几十年来,通过大量的语音数据训练和增加计算资源,监督式语音分离的性能得到大幅提高,相关的语音分离方法也不断涌现。这些监督式语音分离方法大体上可分为以下三个部分:机器学习、训练目标和声学特征。当然,非监督式语音分离也有很多相关的研究。
{title}2. 研究的基本内容与方案
{title}本文以成熟的单声道分离技术为基础,使用一种基于聚类的方法对双人混合语音数据进行分离处理,并与其他的语音分离方法的效果进行比较和分析,研究并实现基于聚类的双人混合语音分离方法。论文将采集多个混合语音信号,使用多种方法对语音进行分离处理,比较不同方法语音分离的效果。