欢迎来到天天文库
浏览记录
ID:6697953
大小:110.00 KB
页数:11页
时间:2018-01-22
《blosum矩阵及其在生物信息学中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、[生工0902]BLOSUM矩阵及其在生物信息学中的应用生物信息学齐阳,汪锴,袁理2011/11/25什么是BLOSUM矩阵?BLOSUM矩阵有什么应用?BLOSUM矩阵及其在生物信息学中的应用齐阳汪锴袁理摘要BLOSUM矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛应用。本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规则、应用以及现代算法。并指出了BLOSUM矩阵的发展前景。关键词BLOSUM矩阵;生物信息学;应用0引言序列比对是现代生物学最基本的研究方法之一,最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个
2、序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。1BLOSUM矩阵概况序列比对是现代生物学最基本的研究方法之一,常
3、见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变「2」。在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化。为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数「3」。当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较
4、保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰。因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率「3」。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992
5、年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box1.BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。2BLOSUM矩阵的构建2.1多序列比对定义:一个多序列比对A是一个二维字符矩阵,即A={}(n∈[1,N],i∈[1,I]),其中=或‘-’,并且满足下面三个条件:(1)序列的数目等于矩阵的行数;(2)如果移去每行中的‘-’字符,将得到原来的序列;(3)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基
6、上下对齐「5」。从上面的定义可以看出,一个比对实际上是DNA或蛋白质经过一系列突变事件(替代、插入、删除)的最后结果,它最近似地表示了所有的进化过程。其中删除和插入没有区别,经过适当地插入删除(用insert,delete表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。例如:VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWTQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGPEVTCVVVDVSHEDPQVKFNWYVDG—2.2BLOSUM打分规则「6」BLOSUM中
7、得分主要采用Log-odds得分,即同源与非同源的可能性的比率的对数。在BLOSUM中两个残基i与j的得分s(a,b)按照log-odds方程计算,方程如下:-----------------------------------------------(1)其中,是指假定残基对a与b是同源的,在已有同源序列比对中出现的目标频率:是指假定残基a与b是非同源的与独立的,残基a与b出现在任何一个蛋白质氨基酸序列中的平均背景频率:是尺度参数,每个得分四舍五人取整.如果残基对a与b是同源的,则它们出现在同源序列比对中目标频率>,s(a,b)<0.如果残基对a与b是非同
8、源的,则它们出现在同源序列比对中目标频率<,s(a,
此文档下载收益归作者所有