高通量数据分析系统的设计与实现文献综述
2020-04-24 09:42:07
随着二代测序技术的发展和深入,测序数据爆炸性增长,各种针对测序数据的生物分析流程也随之产生。生物分析流程的好坏直接决定了相关企业或科研院所的分析效率和能力。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。近年来,分布式计算发展越来越迅速。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理,这样可以节约整体计算时间,大大提高计算效率。分布式计算已经逐渐渗透到很多交叉领域,比如生物计算领域。如何高效率地对大量的生物数据进行分析成为生物计算的一大难题。
当前国内外有不少生物分析流程平台,比如国内有上海尔云信息科技公司的“云生信”平台,国外有Galaxy、DNAnexux、BaseSpace等分析平台。国外比较著名的 DNAnexux,这家公司主要成熟的产品就是打造云端DNA数据库。并将这些数据提供给研究人员和科学家,同时还提供人基因数据备份和检索以及配对。再比如crosssbow,这也是国外研究的一款能够用于完整基因重新排列分析的工具。该工具借助AWS可以在只花不到100美元的成本在3小时内分析完一个人类基因组。在国内,比较出名的有华大基因,主要和阿里云合作,参与GA4GH下的各类研发。还比如BMK cloud(百迈克)主要做生物大数据挖掘,管理以及科研协作等等
但是当前的主流生物分析流程存在以下问题:1)分析过程非透明化,无法确保分析流程的完整性和准确性。2)许多并行化、分布式、云计算技术并没有应用到流程中,导致整体的分析效率不高。3)分析流程复杂性过高,目前很多分析都是在命令行下进行,操作繁琐且容易出错,对操作人员有更高的技术要求,不利于科研的进行。
本设计的目的就是基于上述存在的问题,利用Nextflow工具实现一个分布式的,有用户操作界面,可实时追踪分析过程的生物分析流程操作平台。本平台致力于使用户掌控流程运行的实时状况,直接操作用户界面可以大大减轻科研人员的研究压力,简化操作步骤,应用并行化、分布式计算技术可以更高效地进行科学研究。
{title}2. 研究的基本内容与方案
{title}研究的基本内容:
(1)利用Nextflow框架将已有的分析流程自动化、并行化。
(2)设计分布式生物分析流程,并与现有流程效率进行比较。
(3)实现可视化界面。能够对流程进行控制和追踪,能够对计算资源占用进行监控。
研究目标:
设计实现分布式生物分析流程,实现分析流程自动化、并行化,实现可视化操作界面,能在平台上进行流程控制和追踪,并监控计算资源。