微生物组序列大数据流形学习在进化分类学中的应用研究任务书
2020-02-20 16:09:43
1. 毕业设计(论文)主要内容:
1. 研究运用流形学习技术,复原测序数据的流形拓扑结构,并在生成的流形结构上构建进化树的方法,并运用真实的基因组数据验证该方法具有比传统方法更高的准确率。
2. 研究在数据的流形拓扑结构上进行约束聚类的方法,基于少量已知参考标定序列,区分流形结构上由真实进化变异造成的流形维度和由噪声造成的流形维度,进行维数压缩,并进一步寻找数据集在流形子空间上的自然聚类边界,建立数据集的分子生物学群聚关系与物种分类学或功能组学之间的联系,获得在统计意义上具有明确生物学含义的基因型的方法。
3. 对所提出的算法进行精确性测试和计算复杂性测试。对生成的进化树进行质量评估是算法精确性测试的核心,主要通过两种形式的测试进行:一是运用通用的进化仿真软件产生虚拟的进化路径,与构建算法生成的进化树进行比对;二是利用测序数据中可进行准确标定的已知物种基因序列,比较进化树所反映的物种亲缘关系的准确性。计算复杂性测试通过大规模测序数据集实际测定算法的运行时间以及时间随数据集规模和计算集群规模变化的趋势,获得实测的算法时间复杂度指标,量化确定所提出算法的数据处理能力。
2. 毕业设计(论文)主要任务及要求
将流形建模的思想引入进化基因组学,通过运用流形学习和约束聚类技术,对高通量基因测序数据实现快速、高精度的进化基因组学分析。研究通过流形建模,准确构建基因序列间进化关系的方法,探索适合快速精确处理大规模数据的流形学习技术,正确提取并描述基因序列数据在空间的拓扑结构和群聚关系,准确复原高通量测序所反映的基因进化路径。更进一步,通过结合流形聚类和约束聚类两方面的技术,研究在本征高维数据上寻找具有特定分类意义的子空间、进行维数压缩的方法,并进行子空间聚类寻找数据集在流形空间上的自然分类边界,获得在分子生物学和功能基因组学、物种基因学上均具有明确意义的基因型划分和进化路径分析结果,为基因组学研究提供有力的分析工具。
3. 毕业设计(论文)完成任务的计划与安排
时间节点:
(1)2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2019/3/1—2019/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2019/5/1—2019/5/25:撰写及修改毕业论文;
(4)2019/5/26—2019/6/5:准备答辩。
4. 主要参考文献
[1] 李霞. 生物信息学. 人民卫生出版社. 2015
[2] 李航. 统计学习方法. 清华大学出版社.2012
[3] 周志华. 机器学习. 清华大学出版社. 2016