轻量级移动语音源的多方位跟踪外文翻译资料

2021-12-28 23:01:50

英语原文共 16 页，支付完成后下载完整资料

轻量级移动语音源的多方位跟踪

1.引言

摘要

多个同时移动声源的到达方向估计是各种音频信号处理应用的重要步骤。在本文中，我们提出了一种方法，改进了我们以前的工作，现在能够估计多个移动语音源的方位，同时在资源方面轻，硬件方面（仅使用三个麦克风）和软件方面。这种方法利用了这样一个事实：同时的语音源不会完全重叠。为了评价该方法的性能，基于从不同声学场景中收集的语料库，开发了一个多方位评估系统，称为“机器人听觉的声学交互”（aira）。

关键词多方位三麦克风阵列移动声源卡尔曼滤波器

估计声源的到达方向（DOA）是关于信号处理的一个很好的论题，并且已经发现了大量的应用领域，其用途从补充信息源到应用程序的一个重要部分不等。这些应用从转向多馈源抛物面碟形天线[1]，天线阵列中的源增强[2]，到飞机中的故障监测[3]，到复杂的机器人宠物[4]，到接近生命的昆虫仿真[5]。

这种益处也被应用于以语音为主要来源的领域，因此，无论是为了用户之间的通信清晰还是为了用户与计算机之间的自动语音识别（ASR），都需要语音增强。这些应用的例子包括助听器的设计[6]、机器人试听[7-9]、自动会议处理[10]以及通过ASR进行的通用人机交互（例如与移动电话或智能家庭）。为了进行语音增强，这些应用程序通常在听觉场景分析中有一个预处理阶段，包括自动估计环境中活动语音源的DOA。这被称为多DOA估计，当在真实的声学环境（有音频干扰和普遍的混响）中使用多个移动有源语音源时，即使假设声源位于麦克风阵列的远场区域（即信号模型）。

[11]中提出了当前流行的多方位估计问题的解决方案，可以说这是两个重要的机器人试演项目的起点：多耳[12]和hark[13]。此解决方案需要八个麦克风硬件解决方案，但如果有足够的时间，可以准确检测四个移动扬声器和最多七个静态扬声器。这种高8麦克风要求通过最小化麦克风阵列的物理足迹来解决，其结果是小而有效的8SoundSusb音频接口[14]，目前已应用于Willow Garage的PR2服务机器人，取得了良好的初步效果[15]。然而，即使只有很小的物理足迹，麦克风的数量也使得在空间有限的应用中使用这种解决方案变得困难，例如助听器或移动电话。此外，为了执行该过程的多DOA估计阶段，由于其处理和内存需求，它需要一台非现场计算机[16]，尽管它可能能够与当今的技术抗衡，但对于某些应用来说，这一点可以被认为是很高的。

其他使用更少麦克风（4个）和更少处理和存储需求的多DOA估计方法涉及使用卡尔曼滤波器在噪声环境中平滑估计的声源轨迹[17,18]，并且使用更多麦克风（5个），他们甚至能够在三维搜索空间中这样做[19]。但是，它们只能跟踪一个移动源。在使用很少的麦克风（2到3个）估计多个震源的位置方面，已经成功地进行了重要的尝试[20,21]，但假定震源是静态的。第2节提供了更详细的文献回顾。

在本文中，我们改进了前面的方法，在[22]中介绍并在[23]中应用。我们还以更详细、更系统的方式评估它的性能，包括捕获和使用一个称为“机器人听觉的声学交互”（aira）和基于f1的评估指标的评估语料库，并在几个声学场景中进行评估。

该方法将问题分为两个阶段。第一阶段通过1）在每个麦克风对估计的方位之间应用相干阈值，以及2）利用同步语音的不完全重叠来估计一个方位，即使在多个源环境中也是如此。第二阶段通过将第一阶段的传入方位分配给A）现有轨道或B）新轨道来跟踪多个声源的方位，具体取决于其与现有轨道的角度距离。将卡尔曼滤波器应用于每条轨道，以获得多个方位估计和轨道平滑。

这种方法的当前版本现在能够1）跟踪多个移动声源2）同时使用轻硬件设置（三角形阵列中只有三个麦克风），并且对计算资源的需求很小。据我们所知，这两个特性并没有与任何当前的多方位估计方法结合在一起，这在第2.1节中进行了详细讨论。我们相信，这种组合对于应用的几个领域，以及一般的音频处理社区都是有意义的。

这项工作的组织如下：第2节提供了进行多方位估计的技术细节背景，并讨论了麦克风数量与估计震源数量之间的关系。第3节介绍了同步语音的一些背景，以及所提出的方法如何利用它。第4节详细说明了拟议系统。第5节介绍了我们用于测量所提议系统性能的评估方法。第6节讨论了结果，第7节提供了结论和未来的工作。

2.多方位评估的背景

用于方位估计的最广泛的声学特征之一是话筒间时间差（ITD）。这是从一个麦克风到另一个麦克风的声音延迟。其计算通常基于两个捕获信号之间的互相关矢量（CCV）。计算互相关矢量的最简单方法之一是计算互相关矢量中每个延迟值的皮尔逊相关系数，如等式1所述。（1）

其中x和y是被比较的两个离散信号，i是时间指数，k是y线性移位（延迟）的点，并且正在计算相关性，m x和m y分别是x和y的平均值。话筒间时间差是互相关矢量中最高相关测量值的k值。

中给出了一个很好的例子，说明了这种基于皮尔逊的互相关方法在机器人试听应用中的方位估计，它提供了有限的结果。不幸的是，在混响和噪声环境中使用该方法时出现了问题[25]，因为互相关矢量计算在这种情况下会插入偏差误差，从而导致不正确的话筒间时间差估计。但是，如第4节所示，这可以通过一种冗余形式的组合进行补偿，并使用广义相位变换互相关（GCC-PHAT）计算互相关矢量[26]。

广义相位变换互相关方法因其对混响的鲁棒性而被广泛认为是话筒间时间差计算的主要技术之一[27,28]。正因为如此，它被广泛应用于各种不同的传声器阵列情况下的话筒间时间差计算。例如，在[29]中，为了使作者能够对各种声源的不同声学场景进行实时空间绘制，需要首先使用广义相位变换互相关方法计算话筒间时间差来估计其方位。此外，还采用了广义相位变换互相关的变化，例如在[30]中，作者能够在混响模拟场景中使用六个麦克风的线性阵列共同估计两个移动源的方位和音调。另一个变化出现在[31]中，作者使用基于广义相位变换互相关技术的13麦克风线性阵列构建房间的声学地图，以直接估计多个用户的话筒间时间差。广义相位变换互相关方法的详细说明见第4.3.1节。

在计算了话筒间时间差之后，可以使用各种方法来估计源的方向（DOA）。一种流行的方法是假设声源距离麦克风阵列足够远。（在远场区域），并且麦克风阵列内没有衍射物体。（自由场假设），这样声波可以近似为平面波。这简化了话筒间时间差到方位与ARCSIN函数的关系（详细信息将在第4.3.2节中提供），但这也引入了话筒间时间差到方位关系中的其他问题。在图1中，方位是根据两个麦克风阵列计算出的话筒间时间差绘制的（假设为远场和自由场情况）。从minus;50到50范围可以看出，话筒间时间差-方位关系似乎接近一致。但是，在该范围之外，这种关系会失去其接近均匀性，并且角分辨率会降低，这在估计位于麦克风阵列两侧的角度时会导致重大错误[9]。为了解决这个问题，同时保持远场模型的简单性，在所提出的系统中，通过在假设远场源的情况下，在三角形阵列中选择适当的麦克风对，计算报告的方位，来处理角分辨率的损失。

另一个需要考虑的重要问题是所用麦克风阵列的几何结构。有些几何图形会受到所谓的模糊性[32]的影响，其中一个话筒间时间差可能属于多个方位。如图1所示，仅通过估计-90到90范围内的方位，双麦克风阵列无法区分话筒间时间差是否用于计算来自阵列前面或后面的方位。通过实现“人工耳”和隐马尔可夫模型（HMM）单耳机制[33]可以克服这一点，从而能够检测声源是否来自阵列的任何一侧，但这被认为是不切实际的，因为耳（物理或其与麦克风的相对位置）或声学发生任何物理变化。场景需要对隐马尔可夫模型进行重新训练。这也可以通过两个阶段的策略来解决：第一对信号可以用来估计初始方位，然后音频采集系统可以短暂旋转，然后再获取另一对信号来估计第二个方位。方位之间的比较将导致角度估计在minus;179到180范围内（抵消前后模糊性，在这种情况下，这可能被视为一个微不足道的模糊性）。不幸的是，这种方法有其自身的一系列问题：与使用一个方位估计相比，它需要更多的时间，所需的旋转将阻碍某些应用程序的移动需求，并且声源也可能移动，从而使方位比较静音。另一种可能是放大麦克风阵列，使其包围声源，如[29,31]所示。然而，要做到这一点，麦克风阵列需要包含用户使用的大量空间，这在某些应用程序中可能不实用。

在该方法中，采用了一个三角形阵列来计算各种方位，并利用冗余测度来避免上述模糊问题。这在第4节中有详细说明。

图1

DOA与ITD。该图显示了以度数表示的DOA（或角度）与ITD（或延迟）在样本数量上的关系，以及它如何严重偏离一维阵列边附近区域的均匀关系。

2.1使用的麦克风数量与估计的声源数量

需要注意的是，用于多个方位估计的最佳话筒数量是一个超出本工作范围的讨论问题，但为了便于描述，如果最多使用四个话筒，我们将其称为“硬件灯”设置，因为存在便携式商用外部音频接口，并且能够处理这么多麦克风。

一方面，开发了大量的方法，利用硬件灯光设置来执行强大的单移动方位估计[17-19]。另一方面，采用硬件重的解决方案（需要专门的音频接口）进行多移动方位估计有许多重要的方法。值得一提的是，硬件密集的方法在某些应用中是可行的；有些方法旨在一次性进行音频采集并离线处理，例如声学成像[34]，在这种情况下，使用1000个麦克风阵列并不罕见，不需要实时定位。

后一类方法（硬件密集型）可分为两类方法：基于波束形成技术和高级统计技术。

在[35,36]中可以找到一种有效的基于波束形成的多移动方位估计技术，它在某种程度上代表了它的方法类型。其想法是创建环境的噪声图（或声学图[31]），然后通过使用诸如能量级之类的指标，提出可能的声源及其各自的方位。从技术上讲，它在所有可能的方向上进行基本的声音分离，然后“决定”哪些方向是有效的声源，哪些方向不是。[37]中给出了一个很好的例子，假设会议室中只有两个声源，波束形成技术“决定”将哪个声源分配给哪个声源类。这些决策是在特定的时间间隔内进行的，利用这些时间间隔，可以使用几种方法进行跟踪，例如卡尔曼滤波器[18]或粒子滤波[38]。另一种与[39]中讨论和完善的这类方法有一定关系的技术称为位置-螺距（popi）平面，该平面不是将能量值映射到定向平面上，而是按方向估计螺距谱，从而提供了联合估计声源方位和螺距的可能性，轮流提供在同一方向上定位多个源的附加信息。

总的来说，波束形成方法有一个普遍的问题：为了提高精度和有效性度量的质量，它需要在搜索方向的数量和从这些方向分离的声音的质量上获得高分辨率噪声/声学图。高分辨率地图的音质要求反过来又需要大量的麦克风，因为分离出的声音的质量主要由信号干扰比（SIR）来定义，而信号干扰比（SIR）受所用麦克风数量的限制。这一界限概括为“话筒越多，质量越高”。这种方法的另一个重要问题是，需要在高分辨率地图和所需的计算资源量之间取得平衡，因为高分辨率会导致搜索空间很大，从而找到有效的声源。

应用高级统计处理多移动方位估计问题的技术主要依赖于流行的多信号分类（MUSIC）算法的一些变化[1]。它通过将接收到的信号投影到方位子空间中，基于其特征向量进行多静态方位估计，类似于主成分分析（PCA）。尽管有广泛的报道称，在混响的情况下，它的性能会大大降低[25]，但在处理移动源[40]以及处理办公室类型的混响量[10]方面，它的分辨率和计算成本都在不断提高[7]。然而，一个重要的问题是，它只能估算出比话筒数量少一个的多个声源的方位（例如，一个震源有两个话筒，两个震源有三个话筒等）。这是因为在基于主成分分析的方法中，拥有比麦克风更多的信号源会引发众所周知的“比观测更多的变量”问题

资料编号：[3130]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码