构建以元件为目标导向的基因簇查新平台毕业论文
2021-12-28 21:05:43
论文总字数:19205字
摘 要
天然产物已经成为新药发现和创制的主要来源。近年来,开发基因簇挖掘平台,从海量基因组数据中优选发现新基因簇,已经成为合成生物学领域中的重要研究内容。目前主流的挖掘工具都是广谱性的,其效力受限于建模所用的有限数量的知识库而缺乏深度。为此,本文在应用现有基因簇分析软件的基础上,利用机器学习技术,构建了一个动态的针对特定类型天然产物的基因簇查新平台。平台应用隐马尔可夫方法快速检测所有已知类型的次级代谢产物的生物合成基因簇,使用比较详细的聚酮类合成元件数据训练若干机器学习模型,从而开发了一个元件靶向的基因簇查新方法。计算表明,该方法能够比较准确地筛查聚酮类基因簇、并预测天然产物的化学结构。我们的方法对现有天然产物挖掘技术是一个有益的补充,它将有助于加速新天然产物的发现与利用。。
关键词:元件 次级代谢产物合成基因簇 聚酮酶 隐马尔可夫模型
Construct Element-oriented Platform for Discovering New Gene Cluster
Abstract
Natural products have become a main source of new drug discovery and innovation. In recent years, it has become an important research topic in the field of synthetic biology to develop biological gene clusters (BGCs) mining platform and to find new BGCs from the mass genome data. Current mainstream mining tools are all broad-spectrum, whose effectiveness is limited by the limited amount of knowledge base used in modeling and lack of depth. Therefore, based on the application of existing tools and machine learning technology, this paper constructs a dynamic gene cluster search platform for specific types of natural products. The platform uses the Hidden Markov Model to detect the biosynthetic gene clusters of all known secondary metabolites, and trains machine learning models with up-to-date polyketide synthases data, so as to develop a genetic-control-element-targeted searching platform. The results show that this method can screen the BGCs of polyketide biosynthesis with high accuracy and can precisely predict the chemical structure of natural products. Our method is a useful complement to the existing technology and might help accelerate the discovery and utilization of new natural products..
Key Words: Gene Element Secondary Metabolite Polyketide Synthase Hidden Markov Model
目录
构建以元件为目标导向的基因簇查新平台 I
摘要 I
Abstract II
第一章 文献综述 1
1.1研究背景 1
1.1.1生物合成基因簇 1
1.1.2生物合成基因簇的结构 1
1.1.3MIBIG基因数据库 3
1.2基因簇挖掘技术 4
1.2.1ClusterFinder算法 5
1.2.2 EvoMining方法 6
1.2.3 NP.searcher 7
1.2.4 RiPPs识别 9
1.2.5基于支持向量机的NRPSPredictor 9
1.2.6 TransATor方法 10
1.3基因簇家族 10
1.4从基因到化合物 11
1.5研究意义 11
第二章 材料和方法 12
2.1前言 12
2.2minowa方法介绍 12
2.2.1 PKs和NRPs线性组装模式 12
2.2.2minowa方法 13
2.3profile HMM模型 13
2.3.2隐马尔可夫模型 13
2.3.3Profile HMM模型 13
第三章 从基因组到天然产物的预测计算:以MIBiG成员BGC0000001为例 14
3.1提取数据 17
3.1.1 解析Genebank file 文件 17
3.1.2 minowa AT分析 17
3.1.3 KR分析 19
3.1.4 结构预测 19
第四章 实验结果 20
3.1.4 结构预测 20
第五章 结论与展望 21
5.1展望 21
参考文献 21
致谢 25
第一章 文献综述
1.1研究背景
微生物次生代谢产物是开发新药的巨大宝藏。它们属于多种化学类别,其中许多具有降胆固醇,抗肿瘤或抗生素活性。这些分子通常被认为是一大类化合物,诸如聚酮化合物、非核糖体肽、糖类、生物碱和萜类化合物等的衍生物,有着的非常富于变化的化学骨架结构。现在,基因组测序成本的快速下降允许发现数百个甚至数千个编码这些化合物生物合成机制的基因簇。但是,实验室研究不能跟上基因组发现的速度,因为每个基因簇的实验表征仍然非常费力。因此,有效地使用计算机方法鉴定最有希望的靶标对于成功挖掘可用的基因组财富至关重要。手动注释非常费力且费时,导致注释不完整。次要代谢物簇的自动注释可以提高注释的准确性和完整性。
1.1.1生物合成基因簇
生物合成基因簇即biosynthetic gene clusters,简称BGC,是参与生产专门代谢产物的有组织基因群组。[1]一个BGC通常负责产生一种或者几种具有生物活性的相似化合物。
次级代谢产物:多见于放线菌及真菌。是微生物生长到特定阶段才会产生的一种化合物。[2]其化学结构十分复杂、或对该生物生理功能不明显,或并非是微生物生理活动所必要的物质。次级代谢产物的编码基因通常以基因簇的形式存在,可编码具有多种功能的复合酶。[3]
请支付后下载全文,论文总字数:19205字