基于乳腺癌基因表达数据的特征提取开题报告
2022-01-07 21:55:42
全文总字数:2671字
1. 研究目的与意义及国内外研究现状
随着基因技术的发展,可以很容易地获取乳腺癌病人的基因表达水平,而有些基因在癌症转移过程中扮演着重要的角色。本题选用的115名乳腺癌患者的生存数据和基因数据,病人的临床数据有两大特点,分别是协变量高维和响应变量生存时间是右删失,故需要针对这两大特点,研究哪些基因对乳腺癌患者生存时间具有显著影响。但是只对病人的生存时间分析,不能全面了解治疗过程中协变量产生的影响,所以引入惩罚分位数的相关知识并用到数据,研究在生存时间的不同分位点上,得到不同的回归函数,分析不同程度的乳腺癌患者的基因表达,从而为晚期乳腺癌的治疗提供一定的意见。
国内外研究现状
国外:
koenker和bassett在了解最小二乘回归使用的局限性后提出了分位数回归,并对分位数回归的理论知识做出了充分的说明,并用分位数回归的理论知识来处理大量的实际问题。yu研究了大量分位数回归的应用案例发现,分位数回归主要被应用于临床数据上的生存分析、检验金融数据的异方差性以及分析时间序列数据等。koenker通过统计推断、演绎等方法发现分位数回归估计是具有渐近正态性的。xu j和ying z通过在分位数回归损失函数后施加了一个惩罚项构建出惩罚分位数回归,这种方法的提出将分位数回归成功地应用到变量筛选的层面上。belloni以及chemozhukov通过在分位数回归损失函数后加上lasso惩罚项来达到变量筛选的目的。candes和tao则是在分位数损失函数后加上了dantzig选择器用来达到惩罚的目的。在某些正则化条件下,candes证明了分位数回归损失函数后加上了dantzig选择器估计是一个相合估计。fan和li通过对惩罚分位数回归方程进行推断和演绎证明了scad惩罚回归估计具有oracle性质。
2. 研究的基本内容
本题选用了115名乳腺癌患者的生存数据和基因数据,研究哪些人体基因对乳腺癌患者生存时间具有显著影响。因为病人的临床数据中含有大量的删失数据,进行生存分布函数求解的时候不能忽视删失数据,本文需要研究删失数据的处理从而得到乳腺癌病人的生存分布函数。又因为病人的临床数据具有高维的特点,故需要通过特征选取和特征抽取两种方法对基因数据进行降维,从而得到对晚期乳腺癌患者具有显著影响的基因变量。为了进一步评估在治疗过程中协变量数据对生存时间的影响,建立惩罚分位数回归模型,探索在生存时间的不同分位点上,得到不同时间分位点上生存时间数据与基因数据之间的回归函数,得到不同程度的乳腺癌患者的显著基因表达。
3. 实施方案、进度安排及预期效果
实行方案:
通过阅读文献和相关书籍,在老师的帮助和指导下完成整篇论文,提取出部分对乳腺癌晚期生存时间有显著影响的基因特征变量,为乳腺癌晚期的治疗提供一定的理论基础。
2018年1月1日~2018年1月15日:调研、文献检索、确定选题,构思整篇论文的大体轮廓。
4. 参考文献
[1]王福友,白冰,徐平峰.基于sis的基因表达数据分析[j].长春工业大学学报,2017,38(05):417-420.
[2]赖爱军,谢斌辉.bcat1促进肿瘤发生发展的研究进展[j].世界华人消化杂志,2017,25(17):1536-1542.
[3]牟建波. 基于分位数回归的自适应组lasso变量选择[d].西南交通大学,2017.