基于Java的SNP数据滤波算法设计与实现毕业论文
2021-05-15 22:59:00
摘 要
单核苷酸多态性(SNP)是一种常见的基因变异类型,它是指DNA双链中单个碱基对的变异所导致的表现型多种多样的现象。研究SNP可以使人类对遗传疾病的研究取得突破性进展。而本文正是通过对检测基因的SNP探针所得到的数据进行滤波处理,设计滤波算法,从而得到更加清晰准确的数据资料,以方便进行判定发现基因突变的位置。
论文主要研究了基于Java的数据滤波算法的设计与实现,利用高斯滤波、均值滤波和中值滤波三种方法对SNP数据进行滤波,并通过改变窗函数的大小寻找最适合对这批数据文件进行滤波的算法,同时将滤波前后的数据显示在散点图上进行比较。
研究结果表明:论文中设计的滤波算法均可在一定程度上对SNP数据进行滤波处理,得到比较容易观察的数据波形。
本文特色:本文是基于Java开发环境进行设计实现的,通过几种滤波算法的对比设计来寻找最适合的数据滤波方法。
关键词:Java;SNP;数据滤波算法
Abstract
Single nucleotide polymorphism (SNP) is a common type of genetic variation, and it refers to the phenotype of double-stranded DNA in a single base pair mutation caused by a variety of phenomena. Study SNP allows the study of human genetic disease break through.This article will do the filter processing by the data from Gene probe detected data, and design a filtering algorithm to give a more clear and accurate data and facilitate the determination of the position of mutations found. At the same time I display the data before and after filtering on a scatter plot to compare.
The article major in the design and implementation of Java digital filtering algorithm, using three ways ,including the Gaussian filter, mean filter and median filter, to filter the data, and chang the size of the window function to find the most suitable way of the batch data file filtering algorithm.
Research indicates: The filtering algorithm designing in the article can be to a certain extent, the SNP data filtering processing, get relatively easy to observe the data waveform.
Featured article: This article is designed in the Java development environment. It will be
achieve by comparing the design of several digital filtering algorithms to find the most appropriate digital filtering method based.
Keywords: Java; SNP; Data filtering algorithm
目 录
第1章 绪论 1
1.1研究背景 1
1.2 国内外研究现状 2
1.3本文的研究内容及章节划分 2
1.3.1 主要研究内容 2
1.3.2 章节划分 3
第2章 开发准备 4
2.1 Java程序语言 4
2.2数字滤波方案 5
2.3设计原理 5
2.3.1中值滤波 5
2.3.2均值滤波 7
2.3.3一维高斯滤波 8
2.4本章小结 8
第3章 设计方案 10
3.1数据预处理 10
3.2设计滤波模块 12
3.2.1 TXT文件读取 12
3.2.2 设计中值滤波 13
3.2.3 设计均值滤波 15
3.2.4设计高斯滤波 16
3.3数据显示模块 17
3.4本章小结 18
第4章 结果与分析 19
4.1 Germine_BAF.txt文件滤波结果 19
4.2 Germline_LogR.txt文件滤波结果 20
4.3 Tumor_BAF.txt文件滤波结果 21
4.4 Tumor_LogR.txt文件滤波结果 22
第5章 总结与展望 24
5.1 总结 24
5.2展望 24
致谢 25
参考文献 26
第1章 绪论
虽然在二十一世纪的今天人类的社会发展水平越来越快,但是大多数人却开始呈现出亚健康状况的趋势,人类的各种遗传疾病也逐渐成为威胁健康和发展的重要杀手。因此对基因进行检测研究是维护人类健康的重要步骤。在这之中,单核苷酸多态性(SNP)是第三代基因标记,可以用于对基因的定位、克隆和鉴定,是人类基因组计划逐步走向应用的重要步骤。
1.1研究背景
SNP是遗传变异中最常见的类型。 SNP是在一个单一的碱基对的位点特异性突变,通常由两个等位基因(其中稀有等位基因频率gt;1%)组成。因为单核苷酸多态性保存在进化的过程中,它已被提议作为一个数量性状基因(QTL)来进行标志定位分析和相关的研究。为了研究发现人类基因组至少需要的基因型种类和数量,我们应用人类基因组计划的SNP单倍型图对单核苷酸的多态性进行了深入研究 [3]。SNP研究也可以用于提供用于基因型检测的鉴别方法等其他领域中去。人类对单核苷酸多态性的研究越来越深入,这也为SNP基因分型方法的快速发展提供了重要的实践基础。
目前,在人类疾病遗传学,药物基因组学,法医生物学和新药研制等领域中,SNP都具有十分广泛的应用远景,给人类健康带来巨大保障。目前发现SNP与许多人类疾病有直接或间接的关系,如乳腺癌,阿尔茨海默氏病,类风湿性关节炎,结肠癌,二型糖尿病等。随着医学标准的提高和生物技术的迅速发展,研究SNP基因分型技术对疾病的检测,诊断和治疗将起到的越来越重要的作用。因此,SNP检测对于遗传学研究和临床诊断的方面的治疗病理机制具有十分重要的意义。另一方面,随着越来越多的研究,科学家发现单核苷酸多态性与药物对身体造成的影响也有很大的相关性,在SNP基因分型研究中,观察药物反应对基因造成的影响,筛选和优化药物来帮助个体发展不是很顺利的样本。此外,由于SNP具有很强的稳定性,对研究形状物种鉴定,地域差异导致的突变,其他特征种族基因频率差异有很大的帮助,并具有在生物个体识别方面研究的巨大潜力。通过现代法医比较, SNP标记也能够促进遗传多样性发展,但是基因片段扩增的内容是可以实验确定的,因此SNP在跟踪检测和识别方面也具有优势。
在研究过程中,对SNP数据的滤波处理正是把冗余数据去除掉的过程,以此可以方便的比较癌变细胞跟正常细胞的差异,可以方便准确的找到诱发病变的DNA片段,利于医生对病情的研究跟治疗,对人类的身体健康跟社会进步都有很大的推动作用。
1.2 国内外研究现状
人类基因组项目是一个以研究人类的基因工程为目标的国际研究项目。它们目的是识别大约20000-25000个人类基因组的映射。研究人员还需要对三十亿个碱基对的DNA序列进行测定。该项目于2003年DNA微阵列技术完成的是一个多路复用技术,在分子生物学研究中,研究人员能够研究和解决的问题,这是一度被认为是可能实现的。传统方式不可能在很短的时间内对大量基因的数据进行分析测定。微阵列技术使得能够迅速和有效的测量许多基因的表达水平和它可能产生的响应信号。该技术涉及杂交技术,它是用于识别一个特定的基因序列,如果序列互补则是可用的。以这些互补序列作为探针,结合到大量的mRNA(也称为基因)来测量每个站点的DNA的阵列结构。数千个探针躺在由玻璃制成的微阵列芯片上的。探针可以是cDNA探针或寡核苷酸探针。我们将只考虑芯片的基因组DNA和cDNA的数据,我们不对其他的数据作比较使用[3]。