欢迎来到天天文库
浏览记录
ID:20087885
大小:67.50 KB
页数:4页
时间:2018-10-08
《利用基因突变多样性构建生物进化树的方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、利用基因突变多样性构建生物进化树的方法摘要:以Shannon嫡理论结合Mark等人提出的AMI形的算法包含了基因组的特有信息。生物在漫长的进化过程中要适应多种多样的环境,进而发生基因突变,这是生物进化的基础。通过提取基因序列的AMI变化结果来描述其在群体中的进化程度。本文选取了具有代表性的64种脊椎动物线粒体的基因数据,构建了生物进化树,取得了较为准确的结果。关键词:基因突变;多样性;生物进化树根据已知的DNA序列来构造生物进化树是伴随着计算机技术和信息科学的发展而成长起来的新兴学科。通过近几年的发展,发开出一系列软件如PAUP、PHYLIP和MEGA等。但是通常在运用
2、这些方法之前,都要对序列进行对比(sequencealignment),常用的软件有CLUSTRALW等软件。本文拟提取出不同DNA序列的平均互信息AMI作为特征参数,通过统计学对其进行聚类,从而得到它们的进化关系。此种方法没有对序列的排列进行分析对比,计算简单且速度较快,对大量数据的处理非常方便且准确率较高。一、理论与方法1.平均互信息AMIDNA序列为4种核苷酸A、C、G、T的集合,如果固定X在基因序列上的某一位置,则Y为X下游方向间隔k个位置的核苷酸。p(X)和p(Y)是核苷酸为X和Y的概率。其中表示nk(X,Y)前一个核苷酸为X,下游方向间隔k个位置为Y的组合的
3、个数,这样pk(X,Y)就表示X和Y间隔为k的联合分布概率。当k=0时,就表示了紧邻二联体核苷酸的概率,k=l时表示次紧邻二联体核苷酸的分布率[1]。根据上述算法,我们可以计算出基因序列的平均互信息[2](AMI):Ik,不同的k值对应不同的Ik,对于每一个基因组,我们都能够得到一组向量10,II,12,…,Ik,不同的基因序列,我们则可以得到不同的向量Ik,Jk,Lie-。1.相关系数在本文中我们选择的是pearson相关系数,它能反映两个数据集之间的线性相关程度。这是一个范围在[-1,+1]之间的数值,若相关系数为+1,表示两个数据集合之间呈现完美的正线性相关;若相
4、关系数为-1,则表示量数据集之间是负线性相关;若相关系数为0,则表示两组数据之间没有线性相关性。2.距离计算根据相关系数,我们定义两种基因的AMI之间的距离为:DIJ=l-CIJo通过计算的距离可以看出各个物种与自己的距离为0,与其他物种的距离则根据进化关系的远近而不同。1.聚类分析通过计算不同物种两两之间的AMI距离,可以得到一个距离矩阵。对于这个距离,选用“ward”法即离差平方的方法进行聚类[3]。二、数据与计算1.64种脊椎动物的线粒体基因组[4]线粒体是真核生物的能量发生器并编码一些RNA与蛋白质。线粒体编码与细胞器翻译有关的rRNAs与tRNAs,大部分由核
5、编码,在细胞质中合成后转运给细胞器。所以线粒体的基因组结构、多样性以及进化受到广泛的研究。本文选取的数据为从NCBI(http://www.ncbi.nlm.nih.gov)网站获取的线粒体DNA完全基因组,共64种线粒体完全基因组。脊椎动物线粒体长度比较统一,大约为17⑻0个核苷酸左右。这64种脊椎动物主要包括了哺乳类(Mammalia)、鱼类(Fish)和初龙下纲(Archosauria)三类。2.数据计算对于这64种线粒体基因组,首先提取各自序列的AMI的值,对于k值大小的选取,通过选取不同的值,我们认为取0到500是比较合适的。这样,每种生物就得到一个向量,共有
6、501个分量。对于这64种生物的AMI向量,计算相关系数得到距离,两两相比较距离得到一个距离矩阵,对距离矩阵通过ward法聚类,最后得到与生物遗传学相近似的结果。参考文献:[1]罗辽复.生命进化的物理观[M].上海:上海科学技术出版社,2000:168-183.[2]MarkBauer,SheldonMSchuster,KhalidSayood.TheAverageMutualInformationProfileasaGenomicSignature[J].BMCBioinformatics,2008(01).[3]张楚润.多元统计分析[M].北京:科学出版社,2006
7、.[4]刘军,许甫荣.基于相对熵原理构建生物进化系统树[J].北京大学学报(自然科学版),2003(S1):76-81.(作者单位:武警山东省总队训练基地)
此文档下载收益归作者所有