欢迎来到天天文库
浏览记录
ID:36375826
大小:7.19 MB
页数:59页
时间:2019-05-09
《(医药卫生)医学专业 生物信息学第5章》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第五章分子进化分析MolecularEvolutionAnalysis哈尔滨医科大学李霞第一节引言分子进化开始于20世纪60年代,近20年来由于分子遗传学资料的迅速积累,成为计算生物学和生物信息学等新兴学科的重要组成部分。尤其人类基因组测序后,推动了分子进化的进一步发展,序列保守性,基因表达和网络的进化等研究内容不断的出现在最新的研究中,充实了生物信息学的研究范围。第二节系统发生分析与重建一、核苷酸置换模型及氨基酸置换模型(一)DNA序列进化分析DNA序列的进化演变比蛋白质序列的演变更复杂,因为有多种多样的DNA区域,如蛋白质编码区、非编码区、外
2、显子、内含子、侧翼区、重复DNA序列和插入序列等。因此,弄清所研究的DNA类型和功能是十分重要的。即便我们单独考虑蛋白质编码区,密码子第一、二和三位的核苷酸替代式样也不尽相同。何况,某些区比其他区更易受到自然选择的影响,使得DNA的不同区域呈现不同的进化模式。两个序列间的核苷酸差异对于一种同源的核酸分子来说,它在亲缘关系越近的生物之间差异就越小,相反差异就越大,即两同源分子分歧的时间与它们之间的序列差异成正比。同一条祖先序列传衍的两条后裔序列,它们的核苷酸差异随时间而增加。一个简便的描述序列分歧大小的测度是两条后裔序列中不同核苷酸位点的比例。以下
3、,我们称此估计为核苷酸间的p距离尽管总核苷酸替代能用公式计算,但我们常常也需要知道两个序列间(即序列和)不同核苷酸对的频率。在每一序列中,有4种不同核苷酸(A,T,C,G),故两条序列相应位点配对时可有16种不同类型的核苷酸对表5-116种不同类型的核苷酸对如果4种核苷酸间的替代是随机发生的,当P很小时,Q约为P的2倍。实际上,通常转换比颠换出现更频繁。因此,P将大于Q/2。当序列间的分歧度低时,转换对颠换的比值(R),常称为转换/颠换比,能用下式估计:核苷酸替代数的估计常常建立在以下假设基础上,即每个序列的核苷酸频率处于平衡态,且此频率不随时间
4、而变化。当每个序列的核苷酸频率处于平衡时,我们期望表5-1中的、以及。因此,可用零假设去检验核苷酸频率是否处于平衡态。2.核苷酸替代数的估计欲估计核苷酸替代数,必须应用核苷酸替代的数学模型。为此,许多学者提出了不同的替代模型,其中一些模型以替代率矩阵的形式列在表中。表5-2核苷酸替代模型[例5.1]人与猕猴的细胞色素b基因间的核苷酸替代数动物线粒体DNA中的细胞色素b基因是高度保守的,因此常被用于研究亲缘关系较远的动物的进化关系。表5-3示出了人与猕猴的细胞色素b基因的10种不同类型核苷酸对的数目,并分别以密码子第1、2和3位点列出。表5-3人与
5、猕猴的细胞色素b基因的10种不同类型核苷酸对(二)氨基酸序列进化分析氨基酸差异和不同氨基酸的比例蛋白质或肽链的进化演变研究开始于两个或多个氨基酸序列的比较。图5-1显示了人、马、牛、袋鼠、蝾螈和鲤鱼的血红蛋白α链的氨基酸序列。图中,不同的氨基酸分别用不同的单字母代表。图5-1六种脊椎动物血红蛋白α链的氨基酸序列在图中所给出的例子中,删除所有间隔后可比较的总氨基酸位点数为140。因此,仕此例中。值出现在表中对角线上部,可以很容易地计算出,列于对角线下部。表5-4不同脊椎动物血红蛋白α链中不同氨基酸的数目(上对角线)以及不同氨基酸的比例(下对角线)人
6、马牛袋鼠蝾螈鲤鱼人1717266168马0.12117296667牛0.1210.121256365袋鼠0.1860.2070.1796671蝾螈0.4360.4710.4500.47174鲤鱼0.4860.4790.4640.5070.529注:计算排除了缺失和插入,使用的氨基酸总数为140。当所比较的物种亲缘关系很远时(如人和鲤鱼),值较大,而当亲缘关系较近的物种比较时(如人和马),值较小。这说明随着两个物种的分歧时间增大,氨基酸的替代数也将增大,但并不严格与分歧时间成比例。图5-2p距离和泊松校正(PC)距离随分歧时间变化的关系2.泊松校正
7、(PC)和距离p与t的变化呈现非线性关系的原因之一是当多个氨基酸替代出现在同一位点时,nd偏离实际氨基酸的替代数将会逐渐增加。更精确估计替代数的方法之一是运用泊松分布的概念。令r为一个特定位点每年的氨基酸替换率,并且为简便起见假设所有位点的r都相同,在时间t年后,每个位点氨基酸替代的平均数是rt。在一个给定位点氨基酸替代数k(k=0,1,2,3,…)的发生频率遵循泊松分布,即,若已知每个位点的氨基酸替代率按分布的话,每个位点氨基酸替代的观察值将按负二项式分布。因此,Uzzell和Corbin研究建议,不同位点的替代率都按分布估计,即f(r)的分布
8、形状由a决定,a常称为形状参数或参数,而b则称为尺度因子。分布是非常柔性的,有多种多样形状,由形状参数a决定。当r遵循分布时,就有可能估
此文档下载收益归作者所有