登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 理工学类 > 信息与计算科学 > 正文

DNA序列4D表示与基因识别开题报告

 2020-04-15 17:13:29  

1. 研究目的与意义(文献综述包含参考文献)

文 献 综 述

摘要

随着人类基因组计划的开展,以及各种生物基因序列的研究,产生了越来越多的分子序列数据,基因识别在生物信息处理中占有越来越重要的地位。本文着重分析研究DNA序列的表示法及DNA编码区与非编码区的识别算法。

本文提出DNA序列4D表示,该方法在生物信息学领域具有重大意义,并且能够有效的避免由DNA序列表示转化为几何表示法过程中造成的信息丢失。然后,在DNA序列4D表示的基础上进行傅里叶变换,再对编码区与非编码区序列进行频谱分析,从而达到编码区与非编码区识别的目的。

利用编码区有较强的周期三行为特征,而非编码区该特征较弱甚至是没有的这种差异,在新的DNA序列4D表示法基础上提出了一种可描述信号的相关性的共频系数,进而对编码区与非编码区进行识别。

关键词:基因识别;DNA;编码区;非编码区;判别率

1.1研究背景及目的、意义

随着人类基因组序列测序的完成,人类开始进入了后基因组时代,这是历史上的伟大成就,也是基因组研究的转折关键点,这将意味着人类基因组的研究将全面进入信息提取,数据分析的阶段,即生物信息学发挥重要作用的阶段。生物信息学是在此背景下发展起来的交叉学科,其核心(基因组信息学)包括基因组信息的获取、处理、存储、分配和解释。基因组信息学的重点是清楚全部基因在染色体上的确切位置以及各DNA片段的功能;与此同时,在发现新的基因信息之后进行蛋白质空间结构模拟和预测,然后根据特定蛋白质的功能进行药物方面的设计。在上述研究中,基因识别是进一步研究DNA和蛋白质序列的前提和基础。核苷酸全序列中一个个具有生物功能的片段叫做基因,它是生物遗传信息的载体。非基因部分不编码蛋白质,和生物的性状没有直接关系。因此,基因识别是生物信息学的核心问题之一。随着当今信息技术的发展,强而有力的数据分析工具开始成为现代生物科学研究发展的关键。早期基因识别的主要手段是基于活的细胞或生物实验,通过对若干种不同的基因的同源重组的速率分析,我们可以确定各个基因的大致位置。现在,由于信息量的加大,这种实验已经不能满足需要,而基于计算机算法的基因识别得到了长足的发展。所以,算法一直以来都是人们研究的重点。

1.2国内外研究发展现状

21世纪是生命科学的时代,也是信息的时代。随着人类基因组计划的实施,有关核苷酸、蛋白质的序列和结构数据呈指数增长。而对着巨大而复杂的数据,运用计算机管理数据、控制误差、加速分析过程势在必行。

20世纪80年代末开始,生物信息学蓬勃发展,各国政府对此极为重视,相继投入大量资金成立相关的研究机构。欧美各国及日本相继成立了生物信息数据中心,如美国的国家生物技术信息中心、国家基因组资源中心,欧洲生物信息学研究所,日本信息生物学中心等。

其中诞生了较为成熟的Grail,Genemark等知名的程序算法,已经能够达到了相当高的识别率。

而国内在基因识别方面的研究还比较落后,目前还没有较为成熟的整合多种算法的基因识别程序。近年来在一些专家的带领下,在各自的领域也相继取得了显著的成绩,主要成果有陈润生的神经网络方法、张春霆院士的几何学方法、孟捷的用加权距离判别法。

1.3参考文献:

[1] Zhang Chunting , Zhang Ren, Ou Hongyu . The Z curve database: a graphic rep resentation of genome sequence. Bioinformatics, 2003;

[2] RandicM, VrackoM, LersN, et al. Novel 2-D graphical representation of DNA sequences and their numerical characterization. Chemical Physics Letters, 2003;

[3]孙啸,陆祖宏,谢建明.生物信息学基础.清华大学出版社.2005;

[4]许忠能,生物信息学.清华大学出版社.2008;

[5]沈世,生物序列突变与对比的结构分析.北京:科学出版社.2004;

[6]陈铭,生物信息学.科学出版社.2007;

[7]杨莉,DNA序列4D表示及基因识别算法研究.湖南大学硕士学位论文,2007

[8]中南大学硕士论文 基于DNA序列4D表示的相似性分析论文,2008

[9]李阳 湖南大学硕士学位论文 图形表示在DNA基因序列识别算法中的应用 2010

[10] 郝柏林,张淑誉编著.生物信息学手册[M]. 上海科学技术出版社, 2000

[11] Zhang Chunting,Zhang Ren,Ou Hongyu.The Z curve database:a graphic representation of genome sequence. Bioinformatics . 2003

[12] 赵熙强,牟敬君. 基于DNA序列四维图形表示的相似性分析[J]. 中国海洋大学学报(自然科学版). 2008(02)

[13] 吕碧文. DNA序列分析技术及其现状[J]. 生物学杂志. 1999(02)

[14] 李刚成,龙凯. 一种基于核苷酸二联体的DNA序列编码规则[J]. 科学技术与工程. 2009(09)

[15] 周金玉,肖前军,邓总纲. 一种新的DNA序列的3D图形表示[J]. 科技信息. 2009(25)

2. 研究的基本内容、问题解决措施及方案

2.1 要研究的问题

本文主要研究dna序列的几何表示法和基因识别算法。

在基因识别问题中,特征的选取是影响识别结果的重要因素,我们研究了一系列基因特征,提出了一种动态特征筛选的基因识别方法。接着研究了dna序列的几何表示法(由字符序列映射到数字序列),提出一种新的几何表示法,并基于该表示法进行基因识别。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图