基于基因表达数据的函数型数据聚类方法分析开题报告
2021-12-28 21:12:24
全文总字数:2144字
1. 研究目的与意义及国内外研究现状
随着基因芯片技术的广泛应用,产生了海量的基因表达数据,这些基因数据往往是在时间序列上取多个截面,再在截面上同时选取样本观测值所构成的样本数据,因而在数据空间中呈现出函数性的特征,具有数据量大,维数高的特点。因此如何对这些数据进行有效分析,认识数据的本质,挖掘出有用的生物学信息是目前研究的重点。聚类分析能将功能相关的基因按表达谱的相似程度归纳成功能表达类别,是目前基因表达数据分析的主要技术之一。
由于传统的聚类方法在研究基因表达数据问题上不能较好地抓住基因特征,并且现有的基于函数型的聚类方法存在许多差异,本课题期望比对几种聚类方法,从中选出较优的聚类算法来应用于基因表达数据。
2. 研究的基本内容
本文拟将方法应用于实际数据中,根据处理方式与结果的不同,来分析几种函数型数据的聚类方法的差异。首先对传统的聚类方法进行总结,指出传统方法在处理函数型数据上的困难和缺陷。然后介绍并比较几种函数型数据的聚类方法,如K-center,P-spline等方法,重点分析其理论以及应用上的效率差异。接着进行数据应用,选取其中一些聚类方法,如K-center,LMMS,将其运用于酵母基因表达数据中,根据得到的模拟结果来比较不同聚类方法在处理基因表达数据上的优势与不足,以及在表现数据特征上的差异。最后总结几种聚类方法应用于基因表达数据的差异性能规律。
3. 实施方案、进度安排及预期效果
(1)2014年2月—2014年3月,仔细研究相关文献,介绍并比较各种函数型数据的聚类方法,总结传统方法在处理函数型数据时的缺点与困难;
(2)2014年4月,将相关的理论知识进行梳理,选择其中几种聚类方法,重点分析其应用于函数型数据的理论及效率;
(3)2014年5月初,将其中一些方法应用于基因表达数据中来进行实例分析,总结几种聚类方法应用于实例的差异性能规律,并完成毕业论文的撰写和修改。
4. 参考文献
[1] Chiou, JM, Li, PL. Functional clustering and identifying substructures of longitudinal data [J]. Journal of Royal Statistical Society, Statistical Methodology(Series B), 2007, 69(4): 679-699. [2] Coffey, N, Hinde, J, Holian, E. Clustering longitudinal profiles using P-splines and mixed effects models applied to time-course gene expression data [J]. Computational Statistics Data Analysis, 2014, 71: 14-29. [3] Straube, J, Gorse, AD, PROOF Centre of Excellence Team, Huang, BE, L Cao, LA. A linear mixed model spline framework for analysing time course ‘omics’ data [J]. PLoS one, 2015, 10(8): e0134540. [4] 郭均鹏, 王梅南, 高成菊, 戴晖. 函数型数据的分步系统聚类算法 [J]. 系统管理学报, 2015, 24(6): 814-820. [5] 王德青, 朱建平, 王洁丹. 基于自适应权重的函数型数据聚类方法研究 [J], 数理统计与管理, 2015, 34(1): 84-92. [6] 汪雪红. 基因表达数据聚类算法研究 [D]. 上海: 上海师范大学, 2013. |