基于阈值差分估计的部分线性模型变量选择外文翻译资料
2022-11-24 14:56:46
英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
基于阈值差分估计的部分线性模型变量选择
June Luo, Patrick Gerard
Department of Mathematical Sciences, Clemson University, United States
摘要
考虑到常用的半参数模型,我们采用两种基于差分估计的线性分量的模型,并提出相应的可用于变量选择的阈值估计值。每个阈值估计值有助于选择线性分量中的变量以及体现变量选择过程的一致性。最后,我们借助一个模拟研究评估此方法,并将其运用在一个真实的数据集上。
关键词:半参数模型;差分法;渐进的高维变量选择
- 引言
半参数模型在统计学中备受关注。譬如,Mukherjee和Pozo(2011)讨论了经济数据的半参数方法,Huang等人(2005)将其用于微阵列数据。在这些模型中,一些关系被认为是具有某种参数形式的,而另一些则是不容易参数化的。在本文中,我们考虑以下半参数模型:
,, (1)
其中,,是参数向量,是一个未知函数,是具有零均值和等方差的独立同分布的随机误差。同时,我们假设与独立。
现如今已存在几种方法,例如Ahn和Powell(1993),Liang等人(1999),Fan和Huang(2001)以及Lam和Fan(2008)讨论的那些方法, 构建了式(1)中线性部分的估计值。Wahba(1984),Engle等人(1986)以及Chen和Shiau(1991)使用的惩罚最小二乘方法。Cuzick(1992)提出的部分残留法。Yatchew(1997,2000)使用了较高阶差分,表明由非参数分量的存在而引起的偏差可以基本消除,因此不需要未知函数的估计量就可以估计线性分量,该差分法已广泛用于半参数模型的分析。例如,Tabakan、Akdeniz(2010)和Luo(2012)讨论了基于差分的岭估计量。特别地,Wang等(2011)广泛讨论了基于差分的估计量的渐近分布。
查阅高维变量选择的文献后,我们假设向量是稀疏的,即中的非零分量的数量是有限的。为了变量选择,我们将Wang等人(2011)的差分方法思想进行拓展。同时,我们用阈值估计值来识别模型(1)线性部分中的显著变量。我们的方法被证明是渐近有效的,在这个意义上,所有显著以及不显著的变量都将被检测到。
尽管Wang等人(2011)得到一个基于差分的估计量的最优收敛率,Tabakan和Akdeniz(2010)认为基于差分的岭估计量在一定条件下可能具有比Wang(2011)等人的估计量更小的均方误差。同时,我们将使用基于差分的岭估计量来定义阈值估计量。该阈值估计也可以用于变量选择,并且被证明是渐近有效的。
综上所述,考虑到Wang等人(2011)基于差分的估计量的渐近分布以及Tabakan和Akdeniz(2010)与之相关的讨论,我们进一步提出了模型(1)中线性分量的两个阈值估计量,可用来识别模型(1)的线性部分中的非零系数。最后,我们将验证这种变量选择方法的一致性,并通过实际数据和模拟研究证明它们的实用性。
- 阈值估计
我们考虑一个固定的半参数模型(1),有。假定线性分量中的协变量是随机的,使是维独立的随机向量,有协方差矩阵。我们将从评价Wang等人(2011)的估计量入手,定义一个利普希茨球为:
其中是小于的最大整数。当时,。
假设一组不同的序列满足
以及。 (2)
这样的序列称为阶差分序列。令以及定义,考虑的基于差分的估计量,使
,。
然后
,,
其中,以及,写成矩阵形式为:
其中,以及是矩阵的第行。Wang等人(2011)认为,当时,忽略确定性误差和随机误差之间的相关性,他们通过普通最小二乘估计为
(3)
Wang等人(2011)的定理1证明了这一点
(4)
若,以及,则任意。因为,只要,的维度就随的增大而增大。
作为一种替代选择,Tabakan和Akdeniz(2010)讨论了基于差分的岭估计。Tabakan和Akdeniz(2010)在定理3中表明,均方误差优于,当且仅当
, (5)
其中
,有
当向量稀疏时,我们的主要目标是识别显著变量。我们定义的阈值估计和,
, (6)
以及
, (7)
在第三节中我们将具体阐述和的选择。
- 线性分量的变量选择
在本节中,我们将使用上式(6)和(7)中的两个阈值估计值来选择用于一致变量选择的和。
3.1用选择变量
定理1:假设,以及当,时,逐渐增大。若选择一个序列,如,我们可得:
(8)
以及
(9)
例如,满足这些标准的序列为
,,
对于任意的,,有和。
证明:由定理1的假设,令,结合Wang等人(2011)的结果(4),我们得到是的一个均方误差,即任意,有
当时,因为,可得
,
并且可得。由于只有有限的非零元素,这完成了(8)的证明。若,利用(4)中结果,得
,
其中是标准正态分布函数。由假设以及当时,逐渐增大,可得对于任意常数,存在一个足够大的,满足
对于任意,现在我们运用不等式。因此:
。
然后
这完成了(9)的证明。
3.2用选择变量
当(5)成立时,Tabakan和Akdeniz(2010)证明了的MSE小于的MSE。在这种情况下,可以使用比(6)更有效的基于岭估计的阈值估计值(7)来替代(6)。
定理2:假设,以及当,时,逐渐增大。若(5)成立,则存在一个整数,使得。假设,,那么这种变量筛选方法在一定意义上是一致的,有
(10)
以及
(11)
证明:结果(4)保证了。在(5)的条件下,的MSE小于的MSE,所以是的一致MSE,并有。当时,由定理1的证明,我们有
这完成了(10)的证明。
若,则
,
因此,其中是的第个分量。从Whittle的定理2(1960),我们得到。因此,
。
结果有
对于给定的选择。我们建立
这完成了(11)的证明。
- 模拟
在本节中,我们执行一个小的模拟研究来演示我们的变量选择方法。如定理1中所讨论的,结合定理1中给出的差分序列和,我们假设,并且向量的前两个分量非零,剩余的分量为零,用于模型中的非参数分量的函数为。用于模拟的步骤如下:
- 对于每个,建立矩阵,其中并且每个是来自具有概率0.1的的观测值,否则;是对角矩阵,其值是来自均匀分布的个观测值。我们重复生成多次,直到它是正定的。而矩阵是来自具有零均值和协方差矩阵的高斯分布的个观测值。
- 令,其中是来自具有零均值和方差1的高斯分布的随机误差向量。
在本研究中,我们主要对正确识别零和非零系数的百分比感兴趣。我们定义和分别是正确识别的显著和不显著变量的百分比,使用向量中的非零元素的三个量值,结合(6)和(7)岭调整参数,对于表1中的变量选择,给出关于和的结果。
表1 正确识别率的均值和标准差
非零 |
百分比 |
|
|
|
|
|
|
|
||
(0.3,0.5) |
|
(6) |
mean |
0.58 |
0.58 |
0.63 |
0.75 |
0.86 |
0.89 |
0.97 |
sd |
0.36 |
0.33 |
0.31 |
0.27 |
0.23 |
0.20 |
0.12 |
|||
(7) |
mean |
0.14 |
0.18 |
0.31 |
0.34 |
0.52 |
0.56 |
0.68 |
||
sd |
0.29 |
0.24 |
0.28 |
0.26 |
0.29 |
0.26 |
0.26 |
|||
|
(6) |
mean |
0.58 |
0.74 |
0.88 |
0.89 |
0.95 |
0.95 |
0.97 |
|
sd |
0.49 |
0.31 |
0.21 |
0.13 |
0.10 |
0.09 |
0.06 |
|||
(7) |
mean |
0.98 |
0.98 |
0.99 |
0.99 |
1.00 |
0.99 |
1.00 |
||
sd |
0.14 |
0.08 |
0.04 |
0.03 |
0.00 |
0.01 |
0.00 |
|||
(2,3) |
|
(6) |
mean |
0.99 |
1 |
1 |
1 |
1 |
1 |
1 |
sd |
0.05 |
0 |
0 |
0 |
0 |
0 |
0 |
|||
(7) |
mean |
0.99 |
1 |
1 |
1 |
1 |
1 |
1 |
||
sd |
剩余内容已隐藏,支付完成后下载完整资料 资料编号:[26435],资料为PDF文档或Word文档,PDF文档可免费转换为Word |