基于谱分析的蛋白质分类文献综述
2020-03-24 15:43:50
文 献 综 述
随着”人类基因组计划”的顺利完成,”后基因时代”的到来,蛋白质分子结构与功能在生物学领域研究中扮演着日益重要的角色。而传统的蛋白质分析技术,费时费力,在蛋白质研究过程中越来越捉襟见肘。为了解决这一重大难题,越来越多的方法被应用于蛋白质研究的课题。其中,在蛋白质分类的领域,人们从生物结构和蛋白质自身结构出发,探讨蛋白质分子结构的基本规律。在上世纪50年代,Anfinsen就提出了蛋白质特定的空间结构是由其氨基酸排列序列所决定的。但在从蛋白质一级序列分析其空间结构时仍旧困难重重。在这种情况下,研究蛋白质二级结构就具有明显的优势。蛋白质二级结构,定义为肽链中的主链借助氢键,有规则的卷曲折叠成沿一维方向具有周期性结构的构象。由此看出,蛋白质二级结构不仅是一级蛋白质结构的升华,还是联系蛋白质三级结构的纽带。本文基于傅里叶变换方法,着重分析了蛋白质二级结构的分类。通过对蛋白质的进行数字表达,设法将蛋白质序列变为一组可进行数据处理的数字序列。然后,利用傅里叶变换对蛋白质序列进行在频率域上的特征提取,分析得出的不同功率谱的生物学意义。之后,利用贝叶斯分类器或支持向量机等分类器,对蛋白质进行分类。基于分类器分析结果,分析分类结果的准确性及合理性。
在研究蛋白质二级结构分类时,蛋白质的序列的特征提取是整个研究的重要部分。传统的特征提取主要分为三类:基于氨基酸组成和位置的方法;考虑氨基酸物化性质的方法;基于数据库信息挖掘的方法。但是,随着人们对蛋白质功能预测精度要求的不断提高,需要从氨基酸序列中提取更多的特征的参数,传统的方法逐渐不能满足需求。近期,出现了新兴的基于数字信号信息处理技术的蛋白质序列的特征提取方法。代表主要有Lei提出了基于氨基酸指数和傅里叶变换的特征提取方法预测革兰因氏阴性细菌的亚细胞定位、王克龙提出的基于离散小波变换的特征提取方法等。本文在完成蛋白质的数字表达后,在将蛋白质时域上的信息转化为频域上的信息时,摒弃了离散傅里叶变换(DET)方法所带来的庞大数据量,采用了1965年Cooley和Tukey提出的快速傅里叶变换(FFT)方法。FFT算法的原理是通过许多小的更加容易进行的变换去实现大规模的变换,降低了运算要求,提高了与运算速度。因此,与DET相比,新兴的FFT在蛋白质序列研究中,将DET的运算量减少了几个数量级。
在蛋白质特征提取后,使用分类器对蛋白质进行分类也是重要过程。现阶段,常用的分类器主要要有贝叶斯分类器、决策树、人工神经网络、支撑向量机等。
本文拟选取贝叶斯分类器或支撑向量机作为蛋白质的序列的分类工具。
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。贝叶斯分类器中,最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。本文采用朴素贝叶斯模型进行的蛋白质的分类研究。朴素贝叶斯分类器优点明显,其发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。其缺点也同样存在,NBC并不如理论一样具备最小的误差率。由于其假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
随着人们对机器学习理论的深入研究和对数据挖掘技术的不断改进,在九十年代初期由Vapnik.V等人提出的支撑向量机技术。是建立在统计学习理论的基础之上的,借助最优化方法来解决机器学习理论设数据挖掘中的新方法。与传统的统计学和人工神经网络不同的是,支撑向量机主要是研究中小样本条件下的统计学习规律和方法,并且它所采用的样本不像是在统计学中那样为了某个目标而专门生成的样本。实践表明,以统计学习理论为基础的支撑向量机不仅结构简单,二千具有很强的了理论和实践推广能力。目前,关于支撑向量机的研究工作已经成为人工智能,数据库等领域的热点问题。
总结目前已有的一些研究,基于功率谱分析的蛋白质分类算法不多,而且存在分类稳定性的一些不足。在今后的研究过程中,将尝试组合各类数据挖掘算法,构造新算法模型,在蛋白质分类的稳定性和准确率上实现更大的突破。
数据来源: