登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 电子信息类 > 电子科学与技术 > 正文

生成合成时间序列以增强稀疏数据集外文翻译资料

 2022-08-09 10:53:34  

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


2017 IEEE数据挖掘国际会议

生成合成时间序列以增强稀疏数据集

Germain Forestier1,2,Francoisois Petitjean2,Hoang Anh Dau3,Geoffrey I.Webb2,Eamonn Keogh3 1法国上米歇尔大学阿尔萨斯分校germain.forestier@uha.fr

2澳大利亚墨尔本莫纳什大学IT学院,{francois.petitjean,geoff.webb} @ monash.edu

3美国加州大学河滨分校计算机科学与工程系{hdau001,eamonn} @ cs.ucr.edu

在机器学习中,数据扩充是创建合成示例以扩充用于学习模 型的数据集的过程。数据扩充的一种动机是减少分类器的方差, 从而减少错误。在本文中,我们提出了专门为时间序列分类设 计的新数据增强技术,其中嵌入它们的空间是由动态时间规整

(DTW)引起的。我们方法的主要思想是平均一组时间序列,并将平均时间序列用作新的综合示例。所提出的方法依赖于DTW重心平均(DBA)的扩展,DBA是专门为DTW开发的平均技术。在本文中,我们扩展了DBA以能够计算DTW下时间序列的加权平均值。在这种情况下,某些时间序列可以比其他时间序列贡献更多, 而不是每个时间序列对最终平均值的平均贡献。此扩展

允许我们从中生成无限数量的新示例

在不完全改变其含义的情况下,用紧密的同义词替换句子中的某些单词[7]。数据扩充还被证明可以改善手写识别系统的准确性[8]。Macia等。[9]还表明,经典算法(包括朴素贝叶斯和随机树)可以从数据增强中受益。

给定时间序列的任何集合。为此,我们提出了三种选择与数据 集的时间序列关联的权重的方法。我们对UCR档案的85个数据集进行了实验,并证明了当使用1-NN DTW分类器来限制可用示例的数量(例如,每个类2至6个示例)时,我们的方法特别有用。 此外,我们发现在大多数情况下扩充完整数据集是有益的,因 为我们观察到56个数据集的准确性有所提高,对7个数据集没有影响,而对22个数据集则略有下降。

  1. 介绍

机器学习通常受益于更大的训练集。小训练集会导致过度拟合,而随着数据量的增加,过度拟合的问题逐渐减少[1],[2]。对于许多应用程序,仅提供小型培训集。解决此问题的一种方法是通过生成合成(或人工)示例来扩大训练集。在机器学习中,数据增强是指创建合成示例以增强用于学习模型的数据集[3]的过程。

数据扩充背后的总体思路是减少由于方差引起的分类器误差,即,当样本太少而无法为模型学习准确参数时;然后说分类器过拟合。我们可以通过增加/去除分类器的表示偏差来影响方差(例如参见[4])。增加表示偏差通常会减少方差,反之亦然。但是,在许多情况下,通过生成综合数据比通过修改分类器本身来表达我们对问题的知识

(即偏见)要容易得多。例如,可以稍微旋转包含房屋街

0 20 40 60 80 100 120

CBF数据集的圆柱类 合成缸样品

0 20 40 60 80 100 120

图1:为CBF数据集的Cylinder类(左)生成的合成系列

(右)的示例,该示例通过平均从该类中获取的一组时间序列来进行平均。

综合示例的增强也已用于解决不平衡的班级(即,当训练集的班级没有相同数量的元素时)。例如,Chawla等。[10]提出了一种名为SMOTE(合成少数族裔过采样技术) 的方法,该方法创建了合成少数族裔示例来平衡各个类。实验表明,C4.5,RIPPER和朴素贝叶斯分类器的错误率有所提高。

近年来,通过将动态时间规整(DTW)与非参数分类器

(例如最近邻居(NN))结合使用,在时间序列分类中取得了良好的效果。但是,大多数提议的方法仍然需要大量标记的训练数据才能有效地工作。相对很少关注用于时间扭曲下时间序列分类的增强方法的开发。例如, Le Guennec等。[11]提出拉伸或收缩时间序列的随机选择片段,以创建综合示例。

在本文中,我们介绍了生成一组

来自给定时间序列D的一组合成时间序列DI。将合成集DI与

D(DDI)相加形成一个扩充的数据集。要创建综合时间序

道编号的图像,而无需更改其实际编号[5]。语音可以略 列, cup;

微加速或减速,而无需修改含义[6]。我们可以

我们建议对一组时间序列求平均,并将平均时间序列用作

新创建的示例。为了实现这一目标,我们开发了时间序列平均方法DBA(DTW重心平均)的加权版本[12],

2374-8486/17 $31.00 copy; 2017 IEEE DOI 10.1109/ICDM.2017.106

865

通过简单地改变权重,就可以从给定的时间序列集中创建无限数量的新时间序列。此外,我们开发了三种方法来选择要分配给数据集序列的权重,从而使生成的示例紧密遵循从中采样D的分布。图1显示了使用我们的方法为CBF数据集的Cylinder类生成的合成时间序列的示例[13]。

在先前的工作中,我们制定了DBA算法,并证明了它在DTW [12],[14]下一致地对时间序列进行平均。我们已经证明,通过构造每个班级中最具代表性的时间序列并且仅 将其用于训练,DBA可用于加快NN-DTW [15]。在本文中, 我们采取相反的角度。我们增加训练集的大小以提高分类 准确性。与以前提出的技术不同,我们的新方法可以生成 无限数量的合成时间序列,并调整权重分布以实现多样性。

为了评估新创建的时间序列的有效性,我们将增强训练 集用于结合1-TW分类器和DTW进行时间序列分类。我们将 使用UCR档案的85个数据集[13]进行两种类型的实验,以 评估我们的方法。第一部分与冷启动问题有关,当开始学 习预测模型时只有很少的示例可用时,就会出现该问题。 我们表明,在这种情况下,使用我们的方法创建综合示例 几乎总是有益的。在第二部分中,我们将使用合成时间序 列将训练集的大小增加一倍,而不用考虑它们的原始大小。我们显示出,对于UCR存储库中的大多数数据集[13](85 个中的56个),仅通过将新创建的时间序列添加到训练集 中,即可提高1-NN DTW分类器的准确性。

  1. 方法

我们首先定义在这项工作中使用的关键术语。对于我们

的问题,数据集中的每个对象都是一个时间序列,其长度可能不同。

定义1:时间序列。时间序列T =(t,...,t)为

在本文中,我们使用DBA(DTW重心平均)作为最小化此功能的方法[14]。DBA使用期望最大化方案,并通过以下方式迭代地完善初始平均T:

  1. 期望:考虑固定T并找到与D一致的序列D集的最佳多重比对M(有关多重比对和DTW的更多详细信息,请参见[16])。
  2. 最大化:现在考虑修复和更新M

T是与M一致的最佳平均序列。

尽管仅在给定固定的起始平均值的情况下DBA才是确定 性的,但修改此起始时间序列不足以在合成数据集中创建 足够的多样性。如果我们在一维欧几里得空间中查看问题, 给定两个值(例如4和6),我们希望生成n个其他且不同 的值。如果我们计算算术平均值,则最终只能得到新值5。 但是,如果我们对每个输入示例进行加权并使用加权算术 平均值,则可以计算出无限多个附加值。在这种情况下, 某些数据点的贡献要大于其他数据点,而不是每个数据点 对最终平均值的贡献均相等。使用“均匀加权”平均值的 另一个问题是,当数据分布不是球形时,它可能导致不希 望的时间序列。理想情况下,生成的数据应位于分布的流 形上。想象一下,数据分布呈U形,计算此U的中心通常会 构造非常不可能的对象。

剩下的问题是:(1)如何在动态时间扭曲的情况下始终如一地计算加权平均值;(2)如何确定每个时间序列的权重。

DTW的时间序列加权平均值

DBA [12]是一种迭代算法,它首先从集合中取一个时间序列取平均值(通常是medoid),然后更新该时间序列。计算加权平均值只会改变目标函数。

定义3:非时间序列的加权平均值

有序的一组实数值,其中 1 L DTW。给定一组加权的时间序列D =

L是长度。数据集D = T1,...,TN是此类时间序列的集合。

{ }

{ }

我们的方法背后的一般直觉是采取一套

DTW,T诱导的空间E中的(T1,w1),...,(TN,wn) 平均时间序列是最小化的时间序列:

D中相同类别的时间序列的总和,计算加权 N

i

对T进行平均,并将该平均值用作新的合成时间序列以增

加D(即DT)。请注cup;意,我们方法的重要贡献是找到了权

arg min T isin; E wi

i=1

  • DTW 2(T, T ) (2)

重,因此我们可以很好地跟踪数据的流形。在我们的例子中,对象是时间序列,量度是DTW,这导致以下定义:

定义2:DTW的平均时间序列。给定一组时间序列D =

T1,。..,TN在由动{态时间规整}引起的空间E中,T的平均 时间序列是将以下各项最小化的时间序列:

N

arg min T isin; E dtw 2(t, t ) (1)

i

从公式中可以看出,加权不会影响DTW的计算方式,这

意味着它不会更改DTW在T和D中的序列之间形成的映射。因此,DBA的期望部分正是与非加权版本的DBA相同(请参见[12],[14],[15])。主要区别在于最大化阶段,我们在算法2中对此进行了描述。当通过DTW映射到当前平均值的每个元素时,我们记录与之相关的权重之和。表一给出了加权DBA的伪代码。为了确保我们工作的可重复性,我

们在[17]中提供了加权DBA的实现。

i=1

表I:加权DBA算法。 在其余时间序列中保持一致(每个接收一个

重量为0.2 / N)。如果只有两个时间序列可用,则

法1:加权DBA(D,W,I)

入:D:要平均的序列集入:W:权重集

入:I:迭代次数

T = medoid(D,W)//获得序列D的集合的medoid;我乘以T

=加权DBA更新(T,D,W); 返回T;

法2:加权DBA更新(T在里面,D,W)

入:T在里面:要细化的平均序列(长度为L) 入:D:要平均的序列集

入:W:权重集

出:T更新的平均值

T = 0(,...,)0是长度为L的序列

sumWeights = [0,...,0] //对于i

= 1,长度|L|的数组 D做

对齐方式= DTW对齐方式(T在里面,D(i)) 于l = 1到L做

最近的邻居的权重为0.5。对于此方法,我们还使用这样 一个事实,即在T*附近生成时间序列,并使用它初始化DBA。

D.所选平均距离(ASD)

第三种方法与AS方法具有相同的精神,但是它考虑了初始选择的时间序列与其最近邻居之间的相对距离。这个想法是

如果其他时间序列距离Tlowast;及其最近的邻居相对较远,则它们应比相对于它们的最近邻居的Tlowast;几乎相近的权重要低。从某种意义上说,我们正在尝试评估

通过使用到它的最近邻居的距离作为它的代理,在T邻域* 中进行分布。

至于以前的方法,我们首先随机选择一个

T(l)=上划线T(l) 对齐[l]·W(i)

sumWeights[l] = W(i)

时间序列T

lowast; 从D得到权重为1。然后

结束结束

对于l = 1到L

T (l)= T (l)/sumWeights[l]

结束

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239450],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图