聚类分析在生物数据处理中的一些应用开题报告
2020-04-15 16:47:43
1. 研究目的与意义(文献综述包含参考文献)
文 献 综 述
1985年,美国科学家率先提出人类基因组计划。1986年,诺贝尔获得者renato dulbecco在他的短文中指出:如果我们想更多地了解肿瘤,我们从现在起必须关注细胞的基因组。而目前,生物信息学已然成为了研究领域的热点,它被广泛的运用于基因的数字表达、蛋白质的功能和结构性预测、基因和蛋白质同源关系预测、序列分析与对比等。因此,各种类型的生物数据不断增加,这样海量的数据需要运用合理有效的方法进行分类研究,从中分析相似基因或蛋白质的功能差异性,并且揭示其间的相互作用原理,从而发现有用的信息来帮助我们进一步的解释生命现象。其中,聚类分析作为一种探索性的分析方法被广泛的运用于生物信息学领域。聚类分析有着独特地数据挖掘能力,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。这一特点使得它深受研究者的推崇。
1.国内外相关研究回顾
2. 研究的基本内容、问题解决措施及方案
本文将要研究聚类分析方法在蛋白质序列的分类过程中所起的作用,并探讨其可行性。其中涉及到两个关键点,首先,选取合适的数据库下载相关的生物数据,并对这些数据进行预处理。从数据库中下载的数据通常都是一系列编码,我们很难直接利用这些数据对蛋白质序列进行分析,而是需要利用有效的算法将其转换成易于比较、识别的数据。因此,我选用快速傅里叶变换对这些数据进行信号处理,使原本的数据转换成频率域上的信息,提取频率域上的信号特征,从而有利于进一步对蛋白质序列进行比较。其次,聚类方法的选取也甚为关键。我将结合已有的各项研究成果,设计出一个合适的算法,并运用现有的实验数据对算法进行检验,将其检验结果与现有结果进行比对,在这样重复过程中不断完善自己的研究结果。同时,我也会总结出自己与前人的差异,从而发觉聚类分析方法在运用过程中的一些利弊。