欢迎来到天天文库
浏览记录
ID:1236745
大小:1.66 MB
页数:94页
时间:2017-11-09
《东南学院吴健雄实验室》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第三章(1)序列分析主讲人:孙啸东南大学吴健雄实验室制作人:刘志华第三章序列比较序列比较的根本任务是:发现序列之间的相似性辨别序列之间的差异目的:相似序列相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系第一节序列的相似性同源(homology)-具有共同的祖先直向同源(Orthologous)共生同源(paralogous)相似(similarity)—同源序列一般是相似的—相似序列不一定是同源的—进化趋同(同功能)直向同源(a1inspeciesI,a1inspeciesII)共生同源(
2、a1anda2inspeciesI)进化趋同水平转移基因复制序列的相似性描述定性的描述定量的数值相似度距离序列比较的基本操作是比对(Alignment)两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列。设有两个序列:GACGGATTAG,GATCGGAATAGAlignment2:GACGGATTAGGATCGGAATAGAlignment1:GACGGATTAGGATCGGAATAG1、字母表和序列字母表4字符DNA字母表:{A,C,G,T}扩展的遗传学字母表或IUPAC编码单字
3、母氨基酸编码符号含义说明GGGuanineAAAdenineTTThymineCCCytosineRGorAPurineYTorCPyrimidineMAorCAminoKGorTKetoSGorCStronginteraction(3Hbonds)WAorTWeakinteraction(2Hbonds)HAorCorTNot-GBGorTorCnot-AVGorCorAnot-T(not-U)DGorAorTnot-CNGorAorTorCAny扩展的遗传学字母表或IUPAC编码1、字母表和序列特定的符
4、号—代表字母表A*—代表由字母表A中字符所形成的一系列有限长度序列或字符串或序列的集合a、b、c—代表单独的字符s、t、u、v—代表A*中的序列
5、s
6、—代表序列s的长度为了说明序列s子序列和s中单个字符,在s中各字符之间用数字标明分割边界例如,设s=ACCACGTA,则s可表示为0A1C2C3A4C5G6T7A8i:s:j指明第i位或第j位之间的子序列,当然,0ij
7、s
8、。子序列0:s:i称为前缀,即prefix(s,i)子序列i:s:
9、s
10、称为后缀,即suffix(s,
11、s
12、-i+1)i:
13、s:i—为空序列j-1:s:j—表示s中的第j个字符,简记为sj子序列与子串子序列:选取s中的某些字符(或删除s中的某些字符)而形成s的子序列例如:TTT是ATATAT的子序列。s的子串:是由s中相继的字符所组成。例如:TAC是AGTACA的子串,但不是TTGAC的子串(是子序列)。子串是子序列子序列不一定是子串字符串操作字符串连接操作:两个序列s和t的连接:s++t例如:ACC++CTA=ACCCTA字符串k操作—删除字符串两端的字符其定义如下:prefix(s,l)=sk
14、s
15、-lsuffix(s,l)
16、=k
17、s
18、-lsi:s:j=ki-1sk
19、s
20、-j序列比较可以分为四种基本情况:(1)两条长度相近的序列相似找出序列的差别(2)判断一条序列的前缀与另一条序列的后缀相似(3)判断一条序列是否是另一条序列的子序列(4)判断两条序列中是否有非常相似的子序列2、编辑距离(EditDistance)GCATGACGAATCAGTATGACAAACAGCGCATGACGAATCAGTATGAC-AAACAGC说明两条序列的相似程度——〉定量计算两条序列的相似程度的定量计
21、算相似度,它是两个序列的函数,其值越大,表示两个序列越相似两个序列之间的距离。距离越大,则两个序列的相似度就越小字符编辑操作(EditOperation)字符编辑操作可将一个序列转化为一个新序列Match(a,a)Delete(a,-)Replace(a,b)Insert(-,b)直接距离计算的不足扩展的编辑操作ACCGACAATATGCATAATAGGTATAACAGTCAACCGACAATATGCATAACTGACAATATGGATA第二条序列头尾颠倒CTAGTCG
22、AGGCAATCTGAACAGCTTCGTTAGT?反向互补序列RNA发夹式二级结构3、通过点矩阵进行序列比较“矩阵作图法”或“对角线作图”→序列1→→序列2→实例→序列1→→序列1→自我比较滑动窗口技术两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。滑动窗口技术使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符
此文档下载收益归作者所有