聚类分析在生物数据处理中的一些应用文献综述
2020-03-24 15:44:02
文 献 综 述
1985年,美国科学家率先提出人类基因组计划。1986年,诺贝尔获得者Renato Dulbecco在他的短文中指出:如果我们想更多地了解肿瘤,我们从现在起必须关注细胞的基因组。而目前,生物信息学已然成为了研究领域的热点,它被广泛的运用于基因的数字表达、蛋白质的功能和结构性预测、基因和蛋白质同源关系预测、序列分析与对比等。因此,各种类型的生物数据不断增加,这样海量的数据需要运用合理有效的方法进行分类研究,从中分析相似基因或蛋白质的功能差异性,并且揭示其间的相互作用原理,从而发现有用的信息来帮助我们进一步的解释生命现象。其中,聚类分析作为一种探索性的分析方法被广泛的运用于生物信息学领域。聚类分析有着独特地数据挖掘能力,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。这一特点使得它深受研究者的推崇。
1.国内外相关研究回顾
在国外,生物信息学大受吹捧,人们运用各种方法深入的研究生物学。基因组学的早期研究中,生物学家就利用可行的方法试图对蛋白质序列和结构进行分类,从而出现了各种类型的蛋白质”家族”。随着技术的发展和分类方法的不断优化,出现了一批更为优越的模型,例如隐马尔可夫模型。在这些经过改良的模型中,我们可以看到聚类分析的广泛运用,它们大部分集中于寻找蛋白质序列之间的相同域和生物意义。由于这些算法日趋严密,可以检测到蛋白质序列之间的细微联系,大批生物信息数据库应运而生,例如PROSITE(1999),Blocks (1999),PRINTS(1999),ProDom(1999),Pfam(1999),以及Domo(1998)。除了大规模的生物数据研究,很多知名的学者也给出了自己的研究成果。例如,Aggarwal(1999) 为使得高维数据在低维子空间中成功分组的过程中,信息丢失达到最小化,从而创造性的提出了 projected clustering 的概念。这一概念的提出也有效的缓解了基因表达数据量大、维数高的矛盾。2003年,David Wild在他的文章中提到了Bayesian方法,从而对蛋白质进行有效的聚类分析,将表达模式相近的基因聚在一起。这一方法通过并行技术有效地解决了串行算法运行时间长、对空间要求大的问题。另外, KRAUSE、VINGRON(1998)根据前人的研究成果结合自身发展需要提出的SYSTERS算法;2000年,ENRIGHT、OUZOUNIS在经过多年研究之后提出了GENERAGE算法;GURANLIK和KARYPIS在常规聚类方法的基础上,提出了FEATURE-BASED序列数据聚类方法。这些算法的提出使得聚类分析法得到了广泛的运用,从而促进了生物信息学的发展。
国内的研究较国外来说起步较晚,但研究成果也颇为丰富。例如,一些学者利用聚类分析的分类特性,从基因表达谱数据中提取有用的生物医学信息。同时,他们还针对传统谱聚类算法无法确定聚类个数的问题,提出一种改进的谱聚类算法并将其应用于基因表达谱聚类分析.一些学者还将其它领域的知识引入到聚类分析方法中,使其能够更好的解决研究过程中所遇到的问题,从而得到更为理想的研究结果。戴文华就将并行遗传算法与K-means聚类分析法相结合,有效的解决了遗传学领域的相关问题。
2.相关数据库的介绍
SCOP:被称为蛋白质结构分类数据库,它详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
AAindex:这是代表氨基酸及成对氨基酸的各种物化和生化性质的数值指数的一个数据库。AAindex现在由三部分组成:AAindex1是20个数值的氨基酸指数,目前包含544个氨基酸指数,每个条目包含一个加入号码,即该指数的简短说明,参考信息和20个氨基酸属性的数值。AAindex2是94个氨基酸替代矩阵,其中67个对称矩阵和27个非对称矩阵。AAindex3是统计的蛋白质接触电势,目前包含47个氨基酸接触电势矩阵,其中44个对称矩阵和3个非对称矩阵,该表项的格式的AAindex2几乎相同。AAindex中所有的数据都源自发表的文献。
3.序列比对的介绍
序列比对即通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异,从而揭示生物序列的功能、结构和进化的信息。目前,序列比对作为蛋白质序列研究的基本工作被广泛的运用于生物信息学中。实际操作过程中,研究者通过比较两条序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。同时还可以对多条序列同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点,从而探索导致它们产生共同功能的序列模式。本文就将运用不同的聚类分析方法,对数据库中的生物数据进行序列比对,从中挖掘生物信息,以便从不同的角度了解不同生物数据之间的关联性和差异性,从而为不同类型的生物数据找到合适的分类方式。