资源描述:
《《DNA序列比对》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、序列比对目录全局比对记分矩阵局部比对缺口罚分联配从LCS到序列联配:改变记分方式最长共同子序列(LCS)问题—最简单的序列联配方式,只有插缺,没有错配。LCS问题,若匹配则奖励1分,若为插缺则没有惩罚若为插缺则惩罚,若错配则为负分简单记分法则:+1:匹配-μ:错配罚分-σ:插缺罚分简单记分最终得分为:#匹配–μ(#错配)–σ(#插缺)全局比对问题对于一个给定的记分矩阵,找到两个字符串的最佳联配输入:序列v和w和得分矩阵输出:最高得分的联配↑→=-б=1ifmatch=-µifmismatchsi-1,j-1+1ifvi=wjsi,j=maxsi-1,j-
2、1-µifvi≠wjsi-1,j-σsi,j-1-σm:错配罚分σ:插缺罚分得分矩阵在序列比对中,考虑(4+1)x(4+1)的得分矩阵δ.在氨基酸序列比对中,得分矩阵的大小为(20+1)x(20+1).增加一个1是为了比较一个空位“-”.得分算法为:si-1,j-1+δ(vi,wj)si,j=maxsi-1,j+δ(vi,-)si,j-1+δ(-,wj)测定相似度检测两条序列的相似度基于序列相同的百分比identity基于保守序列conservation序列相同的百分比两条氨基酸或核酸序列相似的程度ACCTGAG–AGACGTG–GCAG70%ident
3、icalmismatchindel产生得分矩阵基于生物学证据产生得分矩阵.比对可看作是一条序列突变而得到另一条序列。有些突变对蛋白质功能得影响很小,因此有些罚分δ(vi,wj),将低于另一些错配或插入引起的罚分记分矩阵:示例AKRANRKAAANK-1+(-1)+(-2)+5+7+3=11ARNKA5-2-1-1R-7-13N--70K---6注意尽管R和K为不同的氨基酸,但它们的配对得分为正.这是因为它们均是正极氨基酸,对蛋白质功能的改变很小保守序列氨基酸的改变倾向于保持原有残基的物化性质。极性to极性aspartateglutamate非极性to非
4、极性alaninevaline类似功能残基leucinetoisoleucine得分矩阵蛋白质序列比较常用的得分矩阵PAMBLOSUMDNA得分矩阵DNA的保守性低于蛋白质的保守性在核苷酸水平比较编码区的效率低PAM可接受点突变PointAcceptedMutation(Dayhoffetal.)1PAM=PAM1=蛋白质“平均”氨基酸突变为1%的次数After100PAMsofevolution,并非所有的残基都改变了有些残基突变了许多次有些残基返回到其原有的状态有些残基根本没有变PAMXPAMx=PAM1xPAM250=PAM1250PAM250是
5、普遍应用的得分矩阵:AlaArgAsnAspCysGlnGluGlyHisIleLeuLys...ARNDCQEGHILK...AlaA13699589126867...ArgR3174325326329AsnN446725646325AspD54811171056325CysC2111521122211GlnQ3556110737235...TrpW020000001010TyrY112131113221ValV74444444541510BLOSUM区段替换矩阵(BlocksSubstitutionMatrix)利用相关蛋白质的局部比对中的区段替换频
6、率计算得分矩阵名称表示进化距离有62%或以上相同的串用于产生BLOSUM62矩阵Blosum50记分矩阵全局比对和局部比对全局比对是试图找到顶点(0,0)到(n,m)的最长编辑距离,是寻找整个两条字符串之间的相似性局部比对是试图找到任一顶点(i,j)到另一顶点(i’,j’)的最长编辑距离。在边的加权值有负分的编辑图中,局部比对将高于全局比对得分。全局比对和局部比对(cont’d)全局比对局部比对——是寻找保守序列的更优算法--T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC
7、
8、
9、
10、
11、
12、
13、
14、
15、
16、
17、
18、
19、
20、
21、
22、
23、
24、
25、
26、
27、
28、
29、
30、AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--CtccCAGTTATGTCAGgggacacgagcatgcagagac
31、
32、
33、
34、
35、
36、
37、
38、
39、
40、
41、
42、aattgccgccgtcgttttcagCAGTTATGTCAGatc局部比对:示例GlobalalignmentLocalalignmentComputea“mini”GlobalAlignmenttogetLocal局部比对:Why?不同物种的两个基因可能在短的保守区域相似,而其它区域不同例如:Homeobox基因在不同生物种类中拥有短的保守序列hom
43、eodomain.由于进行整个序列的比对,因此全局比对无法找到homeodoma