超高维数据下的无模型条件独立特征筛选外文翻译资料
2022-12-11 20:11:12
英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料
超高维数据下的无模型条件独立特征筛选
摘要:在超高维数据分析中特征筛选起着重要的作用,本文涉及当检测到在给定低维变量(例如遗传标记)的响应和超高维度预测(如临床变量或环境变量)之间的关联下的条件特征筛选,为此我们首先提出一个新的指标来衡量条件的独立性,并且基于新提出的条件进行指数筛选,我们系统的研究所提出的方法的理论性质。在一些非常弱条件下确定筛选和排序一致性,新提出的筛选方法具有一些吸引人的特性(a)它是无模型的,因为其实现不需要模型结构的条件(b)对于响应和预测的两个方向的重尾分布或异常值都是稳健的(c)它可以统一用于处理特征筛选和条件筛选。我们通过蒙特卡罗模拟研究了所提出的方法在有限样本中的性能,并且通过两个实例进一步说明了提出的方法的小样本性质。
关键词:特征筛选,条件特征筛选,高维数据,变量选择。
引言:
随着计算能力和存储技术的显著提高,高维数据经常应用于各种研究领域,如全基因组关联研究,生物医学成像,蛋白质组学研究,金融和肿瘤分类。对于高维数据,变量p的数量可以比样本大小n大得多。这带来许多挑战,并提供了许多用于统计分析的机会 (Donoho, 2000; Fan 和 Li, 2006)。只有一小部分预测因素有助于响应的稀疏假设经常被采用,并且在高维数据分析中被认为是有用的。因此变量选择和特征筛选在高维数据分析中起关键作用,在文献中已经提出自动产生稀疏模型的正则化方法。常见的正则化方法包括 Lasso(Tibshirani, 1996), SCAD (Fan和Li, 2001), elastic net(Zou 和 Hastie, 2005), adaptive Lasso(Zou,2006)和 Dantzig selector(C和es 和 Tao, 2007),这些方法已成功应用于高维数据分析,但是它们对于分析超高维数据可能无法很好地运行。计算方便性,统计准确性和算法稳定性成为主要关注点(Fan, Samworth 和 Wu, 2009)。低成本计算的特征筛选适用于超高维数据的分析。目前已经提出了各种特征筛选方法,将维度p从超高规模(e.g., 对于一些a gt; 0)降低到大规模 (e.g., 或)。Liu, Zhong和Li等人对特征筛选方法进行了选择性筛选(2015)。 Fan 和 Lv (2008)提出了基于边缘Pearson相关的确定的独立筛选(SIS)和迭代SIS(ISIS)方法。 Hall 和 Miller (2009提出了使用广义相关的特征筛选方法,其可以展现协变量和响应变量之间的线性和非线性关系。Li, Peng, Zhang和Zhu (2012)研究了Kendalltau;相关性,以确定重尾变量,这对于重尾分布是重要的。 Fan 和 Song (2010)使用最大边际似然估计将SIS扩展到广义线性模型。 Fan, Feng和Song (2011)提出了基于B样条方法的可加模型的非参数独立筛选,并且Fan, Ma 和 Dai (2014) 和 Liu, Li 和 Wu (2014)进一步将非参数独立性筛选方法扩展到不同的系数模型。当模型被正确指定时,上述方法的性能是有效的,但是当模型被错误指定时效果可能会变差。这个问题激励了研究人员开发无模型条件下特征筛选方法。Zhu, Li, Li 和 Zhu (2011)在非常一般的半参数模型框架下开发了一个筛选方法,其中包括许多常用的模型作为其特殊情况。 Li, Zhong 和 Zhu (2012)开发了一种基于模型的距离相关筛选方法,可以处理多变量响应和分组预测因子,但对预测因子服从重尾分布和存在潜在离群值时效果不理想。 Mai 和 Zou (2012)提出了一种基于Kolmogorov距离的确定筛选方法,仅适用于二分类问题。Cui, Li 和 Zhong (2014)开发了超高维判别分析的无模型确定独立方法。所有上述方法不能用于给定低维变量的条件特征筛选,本文旨在通过开发超高维数据的无模型条件特征筛选来弥补差距。这项工作的契机是通过对由大量遗传标记和低维度环境因素组成的遗传数据的实证分析而来的。有趣的是在给定一定环境因素的情况下检查对表型的潜在遗传效应。在没有进一步指定模型结构,我们在给出环境因素的基础上,提出了检测表型与遗传标记之间的条件依赖性的问题,并提出了新的指标来检测条件关联。上述SIS方法可能无法容易地检测到条件关联。看到这个,让我们举出一个小的例子。假设, 和 是独立的,让,这样很容易检查是否独立于。因此,在不使用的信息的情况下,边缘独立筛选方法无法检测和之间的关联。这个小示例表明,我们更需要考虑条件特征筛选。我们将在第3节的数值示例中进一步说明条件特征筛选的重要性。
在本文中,我们首先提出了一个衡量条件独立性的新指标。当且仅当两个随机变量有条件独立时,新指标等于0。新指标在严格单调转换下是不变的,可以容易地进行评估,而不涉及任何数值优化算法。基于这个新的指标,我们进一步开发了一个无条件特征筛选方法。我们调查拟议方法的理论性质,建立温和条件下的筛选性能和排序一致性。提出的条件特征筛选方法具有几个吸引人的特征。(a)在不存在条件变量的情况下,提出的条件特征筛选方法成为特征筛选方法。因此,所提出的方法可用于特征筛选和条件特征筛选。(b)它是无模型的,因为其实现不需要指定特定的模型结构,并且(c)它允许响应和预测变量中的重尾误差分布或异常值。我们进行Monte Carlo模拟,以检查所提出的方法的有限样本性能,并与现有的特征筛选方法进行比较。我们的数值结果表明,我们提出的方法优于常用方法。我们通过两个实际数据示例进一步说明了提出的过程。
本文的其余部分安排如下。在第二部分中,我们提出了一种衡量条件独立性的新指标,并根据新的指标制定条件特征筛选方法。我们系统地研究了提出的指标和方法的理论性质。在第3节中,我们进行各种蒙特卡罗模拟,以调查所提出的过程的有限样本性能,并说明两个实际数据示例的新过程。第4节给出了结论,技术证明被归入附录。
2.新特征筛选方法
在本节中,我们首先提出了一种检验条件独立性的新指标,然后根据新的指标进一步进行条件特征筛选。
2.1 新条件独立筛选指标
假设,和是支撑集分别是,,(的子集)的随机变量。定义= 。 令{,,}为{,,}的独立副本,意味着,其中是指标函数。我们以记。因此,,相似的,记=,=,=,=,相似的,我们定义符号和,因此和是独立的给定,当且仅当=、,相当于
= (2.1)
根据条件独立的Cramer-von Mises统计量,定义以下指标来衡量条件独立性是很自然的
= (2.2)
这里和分别从米塞斯的第一个字母和条件中选出。按照其定义,=和=0当且仅当和有条件地独立给定。该性质意味着可以作为本文提出的无模型条件特征筛选的边际效用。
令{(,,)}, =为来自(,,)的随机样本。,,,的自然估计量是:
==()
==
== (2.3)
==
其中是指标函数。然后,我们通过以下公式估计指数
= (2.4)
从上面的定义,很容易证明MC及其估计值对于严格的单调变换是不变的。也就是说,对于任意严格单调递增函数,和,可以认为
=,和=
该性质意味着在重要变量与响应之间存在非线性关系的情况下,基于MC的筛选过程可能比边缘Pearson相关更有效。可以为多维随机向量,和定义和。 然而,可能需要更多样品,以便在,和的维数增加时具有良好的估计。因此,我们将重点放在有限的固定维度情形。
2.2有条件的独立筛选
本节致力于提出使用指标MC的条件特征筛选方法,令为一维响应变量,=作为预测向量,是一维预测变量,将{,,,}表示为来自{,,}的随机样本。遵循文献中的惯例(Li, Zhong 和 Zhu, 2012; Zhu, Li, Li 和 Zhu, 2011), 我们定义了给定的的显著变量集合,而不指定任何回归模型:
={k:对某些于有关} (2.5)
其中是给定的的定义域,并且由表示为的无效预测子集。定义 = 来测量给定的和之间的条件独立性。换句话说,可以被用作边界效用来测量给定的对的重要性。让=,直观地来看,的值越大越重要。因此,对于预先指定的阈值d,我们将考虑
={k:是全部最大的} (2.6)
作为的估计.
提出的方法不对模型结构施加假设,因此它是无模型假设的。由于估计的边际效用是基于经验累积分布函数(CDF),对于异常值是稳健的,或者在,或上严格单调递增变换下是不变的。
我们接下来研究基于的提出的条件特征筛选方法的理论性质。我们首先表明,拟议的条件筛选方法在以下条件下享有肯定的筛选性质。
(C1).这里有一个正常常数gt;0和01/2就像2
条件(C1)假设最小值不能太小,并且这是特征筛选文献中的典型假设(see, e.g., Condition 3 in Fan 和 Lv (2008),风扇中的条件E(2010),Chen和Xu的状况T2(2014),条件2在Li, Zhong 和 Zhu (2012), 条件2在Cui, Li和Zhong (2014))
定理2.1. [当然筛选性质](a)在条件下(C1),存在正常常数使得
P(gt;)O(pexp{- }) (2.7)
(b)定义
={k:,当1kp} (2.8)
在条件(C1)下,也有
P()1-O({- }) (2.9)
其中是的基数。
(2.9)中的性质被称为特征筛选方法的肯定筛选性质 (Fan和Lv, 2008)。因此,我们将提出的特征筛选方法称为基于的肯定条件独立筛查(简称MC-SCIS)。我们接下来会展示MC-SCIS具有排序一致性 (Zhu, Li, Li和Zhu, 2011)。为了建立排序一致性性质,我们对MC-SCIS给出了以下条件。
(C2){-}。
这种情况在 Cui, Li 和 Zhong (2014)中施加,并且弱于部分正交条件(Huang, Horowitz和Ma, 2008)。在这种情况下,我们显示MC-SCIS享有排名一致性性质。
定理2.2. [一致性性质],在条件(C2)下,如果并且lt;,条件(C1)和(C2)中给出的和,分别给出了定理2.1(a),并且遵循
gt;0,a.s. (2.10)
我们应该指出,这里的假设不是最弱的。定理2.2意味着MC-SCIS高概率可能将重要变量排在不重要的变量之上。
备注:提出的条件筛选方法可以直接适用于不存在变量的特征筛选。在这种情况下,可以通过=修改(2.2)的索引定义。使用这个无条件的索引,可使MC-SCIS可用于特征筛选。定理2.1和2.2中的结果在(C1)和(C2)
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[27411],资料为PDF文档或Word文档,PDF文档可免费转换为Word