生物序列中致病基因的筛选文献综述
2020-06-29 20:40:13
文 献 综 述 一、 前言 人体的每条染色体携带一个DNA分子,人的遗传密码由人体中的DNA携带。
DNA是由分别带有A,T,C,G四种碱基的脱氧核苷酸链接组成的双螺旋长链分子。
在这条双螺旋的长链中,共有约30亿个碱基对,而基因则是DNA长链中有遗传效应的一些片段。
在组成DNA的数量浩瀚的碱基对(或对应的脱氧核苷酸)中,有一些特定位置的单个核苷酸经常发生变异引起DNA的多态性,我们称之为位点。
大量研究表明,人体的许多表型性状差异以及对药物和疾病的易感性等都可能与某些位点相关联,或和包含有多个位点的基因相关联。
因此,定位与性状或疾病相关联的位点在染色体或基因中的位置,能帮助研究人员了解性状和一些疾病的遗传机理,也能使人们对致病位点加以干预,防止一些遗传病的发生。
近年来,研究人员大都采用全基因组的方法来确定致病位点或致病基因,具体做法是:招募大量志愿者(样本),包括具有某种遗传病的人和健康的人,通常用1表示病人,0表示健康者。
对每个样本,采用碱基(A,T,C,G)的编码方式来获取每个位点的信息(因为染色体具有双螺旋结构,所以用两个碱基的组合表示一个位点的信息);研究人员可以通过对样本的健康状况和位点编码的对比分析来确定致病位点,从而发现遗传病或性状的遗传机理。
二、国内外相关研究 目前,国内外学者对遗传性疾病和性状的遗传位点及相关问题的研究成果较多,涉及许多模型方法,对此,笔者进行了概括和分析。
Yinfei Kong, Daoji Li, Yingying Fan以及Jinchi Lv[1]提出了一种两阶段的交互识别方法,即通过距离相关(IPDC)来进行交互追踪,在高维多响应交互模型的设置中,利用特征筛选的特征筛选应用于具有距离相关性的转换变量,然后进行特征选择。