登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 软件工程 > 正文

高通量数据分析系统的设计与实现开题报告

 2020-04-06 11:07:12  

1. 研究目的与意义(文献综述)

随着二代测序技术的发展和深入,测序数据爆炸性增长,各种针对测序数据的生物分析流程也随之产生。生物分析流程的好坏直接决定了相关企业或科研院所的分析效率和能力。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。近年来,分布式计算发展越来越迅速。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理,这样可以节约整体计算时间,大大提高计算效率。分布式计算已经逐渐渗透到很多交叉领域,比如生物计算领域。如何高效率地对大量的生物数据进行分析成为生物计算的一大难题。

当前国内外有不少生物分析流程平台,比如国内有上海尔云信息科技公司的“云生信”平台,国外有galaxy、dnanexux、basespace等分析平台。国外比较著名的 dnanexux,这家公司主要成熟的产品就是打造云端dna数据库。并将这些数据提供给研究人员和科学家,同时还提供人基因数据备份和检索以及配对。再比如crosssbow,这也是国外研究的一款能够用于完整基因重新排列分析的工具。该工具借助aws可以在只花不到100美元的成本在3小时内分析完一个人类基因组。在国内,比较出名的有华大基因,主要和阿里云合作,参与ga4gh下的各类研发。还比如bmk cloud(百迈克)主要做生物大数据挖掘,管理以及科研协作等等

但是当前的主流生物分析流程存在以下问题:1)分析过程非透明化,无法确保分析流程的完整性和准确性。2)许多并行化、分布式、云计算技术并没有应用到流程中,导致整体的分析效率不高。3)分析流程复杂性过高,目前很多分析都是在命令行下进行,操作繁琐且容易出错,对操作人员有更高的技术要求,不利于科研的进行。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

研究的基本内容:

(1)利用nextflow框架将已有的分析流程自动化、并行化。

(2)设计分布式生物分析流程,并与现有流程效率进行比较。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

(1)2018/1/14—2018/3/5:确定选题,查阅文献,外文翻译和撰写开题报告;

(2)2018/3/6—2018/4/30:系统架构、程序设计与开发、系统测试与完善;

(3)2018/5/1—2018/5/25:撰写及修改毕业论文;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

1)李敏俐,关善辉,陆祖宏. 染色质免疫沉淀试验中基因组dna超声破碎条件优化策略[j]. 生物技术通报,2010(05):121-125 140.

2)di tommaso p, chatzou m, floden e w, etal. nextflow enables reproducible computational workflows[j]. naturebiotechnology, 2017, 35(4): 316-319.

3)garcia r, valente m t. object-businessprocess mapping frameworks: abstractions, architecture, andimplementation[c]//enterprise distributed object computing conference (edoc),2014 ieee 18th international. ieee, 2014: 160-169.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图