带右删失数据的广义部分线性变系数变换模型外文翻译资料
2022-11-24 15:13:22
英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
带右删失数据的广义部分线性变系数变换模型
关键词:广义部分线性变系数变换模型,边际似然B样条
摘要:在本文中,提出了使用广义部分线性变系数变换模型(GPLVCTM)分析右删失数据的统一最大边际似然估计值,它的灵活性足以包括许特殊情况下的许多生存模式。模型中未知函数系数用三次B样条多项式逼近。我们通过最大化边际似然函数来估计B样条系数和回归参数。这个过程的一个优点是它不受基准危险率函数和删失分布影响。通过仿真研究和实际数据应用(退伍军人管理局肺癌研究临床试验的VA数据),我们说明了所提出的估计过程准确,稳定,实用。
一.引言:
线性变换模型是已被广泛应用于分析右删失数据的一种模型,形式为 (1)
其中T是生存时间变量,Z是相应的协变量向量,是已知累积分布函数的随机误差,h(t)是一个未知的单调递增连接函数,是回归系数向量.已经提出了各种方法来解决估计回归参数向量,模型(1)中被删失或未被删失的数据。Murphy等人 在1997年通过用极大半参数似然的方法得到的估计; Lam和Leung在2001年通过MCMC近似算法获得最大边际似然估计; Pettitt在1984年和Cuzick在1988年采用秩方法来估计; 其他方法包括轮廓可能性(Chen and Little,2001),广义估计方程(Cheng et al.1995; Fine et al.,1998; Yang and Prentice,1999; Fine,1999; Chen et al.,2002; Cai et .,2002),非参数最大似然(Zeng和Lin,2007a,b)等。
注意,当随机误差分别遵循标准极值分布,标准回归分布和标准正态分布时,(1)可以归纳为比例风险Cox模型(Cox,1972),比例赔率模型(Pettitt,1982,1984; Bennett,1983; Dabrowska和Doksum,1988a; Murphy等,1997)和多项式概率模型(Thurstone ,1927年,1931)。 (1)的典型假设是Z通过h(t)线性地影响生存时间变量。假设可以很容易地进行数学计算和模型解释。在许多应用中,这种假设可能是不正确的。例如,在退伍军人管理局肺癌试验中,治疗对生存时间的影响可能因患者年龄而异。更灵活的假设是(1)中Z具有非参数或半参数结构。 Lu和Li在2008年提出了一种非线性变换模型,并通过平滑样条逼近和提升算法估计了非线性效应。然而,Z的这种未指定的结构将遭受“维度的诅咒”。Wu等在2010年考虑了一次系数变换模型,并通过两步平滑法获得了一次系数变化参数的估计。然而,如果某些效应本身是固有的,那么这种模式可能会受到低效率的影响。更合适和更灵活的替代方案是:模型中,Z在(1)中具有部分线性变化系数结构,这种模型被称为部分线性变系数变换模型,其形式为 (2)
其中,是线性和变系数分量中的协变量向量,是线性回归参数向量,是平滑回归系数函数向量,u测量x效应的变异性,这可能是生存时间,任何条目或其他变量。 注意,如果是常数函数,则(2)减少到(1)。
给定Z,X和U,表示FZ,X,作为T的条件累积分布函数。然后模型(2)可以重写为
(3)
其中是具有Z = 0和X=0的T的基线累积分布函数。 在本文中,我们考虑了一种
带右删失数据的广义部分线性变系数变换模型,这种模型以累积分布函数为形式:
(4)
其中是一个已知的单调递增的连接函数,对于任何,满足=1和,也分别相对于u和v第一和第二可微 。 注意,当F(t)为(3)或(2)时,如果F(t)归纳为标准极值分布函数,标准物流分布和标准正态分布函数时,则(4) 分别为部分线性变系数比例风险模型,部分线性变系数比例赔率模型和部分线性变系数多项式概率模型。 事实上,(4)可以看作是广义部分线性变换模型的扩展形式:
(5)
这是Gu等人在2005年考虑的一般转型模式的特例。在他们的论文中,他们提出了模型(5)的无基线估计过程,并通过最大化边际似然函数获得(5)中的的估计。 他们的论文中的模拟研究表明,他们的估计程序是有效和适用的。
在本文2.2节中,我们利用三次B样条多项式逼近光滑函数系数,并通过AIC和BIC标准来选择节数。Gu等人在2005年还把 模型(4)归纳为(5)。我们还通过最大化边缘似然性和Gu等人的三阶段MCMC-SA算法来估计模型参数,其中包括线性回归参数和B样条多项式系数。 附录A中提供了用于右删失数据的Gibbs抽样程序。
本文的其余部分组织如下。在第2节中,我们描述了估计程序。在第3节中,所提出的方法的实证性能说明了一些模拟 研究,并且VA数据集的例子是从退伍军人管理肺癌研究的临床试验中得到的。在附录A中给出了右删失数据的Gibbs抽样过程。
二.估计程序
2.1. 最大边际似然估计(MMLE)
为了使用三次B样条多项式来近似模型(4)中的平滑函数系数,我们假设具有二阶连续导数。
让C为设限时间变量,使其有条件地独立于T,给定协变量Z,X,U,并且让为事件时间变量和是检查指标变量。假设是 来自人口的样本。 让是基础生存时间的完整秩向量而是未经审查的存活时间的总数。 注意,由于检查可能部分地观察到Rn。
将由未删失的生存时间的等级组成的表示为T的部分等级向量。 如果是包含所有n的集合,则 表示为潜在生存时间向量T的可能秩向量,而且与一致,给定为,表示:
其中是第r个未经审查的生存时间的标签,是属于间隔中检查的那些观察值对应的一组标签,并且和。如果假定未删失的存活时代没有彼此通过纸张来联系,然后给出,事件可以通过来表征。
因为B样条多项式插值数值的稳定性,所以就为现代非参数和半参数建模提供了有效的方法。 DeBoor在1978年为此详细讨论了这种方法。 Sleeper和Harrington在1990年使用B样条近似法估计加性Cox回归模型中的加和效应函数。Nan等人在2005考虑了使用B样条法进行变系数Cox回归模型的估计。B样条多项式的阶数r与结具有以下属性:
(i)for;(ii) for;(iii)
For 任何.可以看出,对于任何和
都成立.
在本节中,我们将使用三次B样条多项式近似未知平滑功能系数,并在2.2节
中通过AIC和BIC标准来选择结数。 由于我们假设Z中的协变量的所有效应随着相同 的
变量U而变化,所以在B样条多项式近似中,的共享相同的基地,其中差异仅
仅是B样条系数。 然后,对于固定节点,.可以近似为
(6)
其中是B样条基矢量,是样
条系数向量,d是B样条基的尺寸(即,如果考虑M内结,则d = 4 M)。
为了简化符号,对于固定节,表示
,其中。那么模型(4)可以近似为
(7)
注意,对于固定节点,C(V)是V的已知矢量函数,这意味着当给出V时,也给出等价的C(V)。 因此,如果将C(V)视为模型(7)的协变量向量,则模型(4)的分析减少到分析(5)—(7)。 表示为基于模型(7)的g的最大边际似然估计(MMLE),然后忽略模型近似误差,对于任何,函数系数可以表示为
(8)
接下来,我们基于模型(7)介绍g的MMLE。为了简洁,表示为
那么边际似然函数和分数函数由下式给出:
= (9)
和:
其中:
对于和是与等一致的(0,1)向量的对应集合。
和:
(11) 的条件密度函数.给定和.注意,(9)的最后一个等式基于简单的变换,,并且(10)的最后相等的期望对应于条件密度(11)。然后,的边际似然估计可以通过:
(12) 来解决.
从(9)可以看出,边际可能性没有妨碍参数,所以MMLE及其对应的协方差矩阵也是如此。他的渐近方差 - 协方差矩阵可以通过的倒数来估计,并且通过
其中:
和并且表示任何列向量的.
表示和作为的真实值.如果区分和积分可以在的邻域变化,那么可以看出
(13)
注意,由于(10)中的高维积分和条件密度中的归一化常数,直接求解等式(12)是困难和不可能的; 为了克服障碍,采用Gu等人的三阶段MCMC-SA算法 (2005)利用Gibbs抽样程序对附录A中的权利审查数据进行了解,以求解等式(12)。
2.2选择结
对于固定数量的结,比如K,我们选择等间距的采样分位数作为结。 然而,如果功能有不连续性,需要在其附近放一个结。 如果边界上没有足够的数据,应该在边界上加上更多的结,以避免奇点。 对于单调或单峰平滑函数,少于五个内结似乎谁应该的。在我们的实施中,我们在大范围内改变结的数量,然后选择最小化AIC或BIC的结果,给出:
(14)
其中d=k 4和可以由LAM和LENUG针对比例赔率模型考虑的蒙特卡罗数值算法近似得到。
表示为Tn的不完整等级,其中如果在对于中被截断,那么可以很容易地获得:
(15)
其中:我们将(15)中的被积函数乘 (16) 然后除于
其中,其中是间隔中的检查观察次数并且是在之前的风险受试者的数量.显然,是与一致的n个生存时间中可能排名的总数,(16)是进化型II检查下的的密度函数.那么可以表示为:
(17)
其中期望值对应于密度(16)并且:
因此,可以近似为:
(18)
其中,其中是来自均匀分布的渐进型II检查的大小为n的随机样本的标识次序统计的M个独立实现。
三.数值研究
在本节中,使用一些模拟研究和VA数据集应用来说明我们提出的方法。
3.1模拟研究
在模拟研究中,估计器由定义的均方根误差(RMSE)评估,其中规则网格点. 可以通过序列估计。节数由AIC和BIC标准选择。在我们的模拟中,我们发现估计过程对结数不是非常敏感。 所以我们决定在模拟研究中选择四节B样条逼近法。
我们考虑以下一般部分线性变系数变换模型:
(19)
其中:和分别作为标准极值分布函数和标准正态分布函数,其结果对应于比例风险模型(PH)和多项式(MP)模型。
(19)中的参数设置如下:,而协变量是从以下分布独立生成的:所有基线累积分布函数取为。对于每个模型,我们考虑三个审查案例,第一个案例:没有删失,第二个案例:15%删失率,第三个案例:27%删失率。对于这两种模型,审查变量C遵循形式的指数分布,就危害函数而言,(19) 其中,b被适当选择,使检查率分别为0%,15%和27%。我们生成150个数据集,每个删失案例和每个模型都有100个观察结果。
在模拟中,使用三次B样条多项式近似平滑函数。我们运行的三阶段MCMC-SA算法。的初始值由生成,被选为零矩阵,这些从U(0,1)生成,然后对其进行排序,使其与生存次数一致。图(a) —(d) 图1显示了的典型拟合曲线以及相应的95%置信区间(CI),检测率为15%,检测率为16%的MP模型。这些典型的样品被选择为使其RMSE等于100次重复中的中值。 表1给出了三种检测情况下PH模型和MP模型的参数估计结果的总结,包括估计平均值(平均值),样本标准偏差(SStd),Gu等第三阶段的估计标准偏差(Std)值。 (2005)和95%的覆盖概率(Cp)。 表2列出了每个模型和每个检查情况下RMSE的样本均值(平均值)和样本标准偏差(Std)。
从图。 1,我们可以看出,的拟合曲线非常接近每个模型的真实线。 注意,图(a) - (d)
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[26422],资料为PDF文档或Word文档,PDF文档可免费转换为Word