东南大学吴健雄实验室

东南大学吴健雄实验室

ID:21349930

大小:1.66 MB

页数:94页

时间:2018-10-21

东南大学吴健雄实验室_第1页
东南大学吴健雄实验室_第2页
东南大学吴健雄实验室_第3页
东南大学吴健雄实验室_第4页
东南大学吴健雄实验室_第5页
资源描述:

《东南大学吴健雄实验室》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第三章(1)序列分析主讲人:孙啸东南大学吴健雄实验室制作人:刘志华第三章序列比较序列比较的根本任务是:发现序列之间的相似性辨别序列之间的差异目的:相似序列相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系第一节序列的相似性同源(homology)-具有共同的祖先直向同源(Orthologous)共生同源(paralogous)相似(similarity)—同源序列一般是相似的—相似序列不一定是同源的—进化趋同(同功能)直向同源(a1inspeciesI,a1inspeciesII)共生同源(a1anda2inspeciesI)进化趋

2、同水平转移基因复制序列的相似性描述定性的描述定量的数值相似度距离序列比较的基本操作是比对(Alignment)两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列。设有两个序列:GACGGATTAG,GATCGGAATAGAlignment2:GACGGATTAGGATCGGAATAGAlignment1:GACGGATTAGGATCGGAATAG1、字母表和序列字母表4字符DNA字母表:{A,C,G,T}扩展的遗传学字母表或IUPAC编码单字母氨基酸编码符号含义说明GGGuanineAAAdenineTTThymineCCC

3、ytosineRGorAPurineYTorCPyrimidineMAorCAminoKGorTKetoSGorCStronginteraction(3Hbonds)WAorTWeakinteraction(2Hbonds)HAorCorTNot-GBGorTorCnot-AVGorCorAnot-T(not-U)DGorAorTnot-CNGorAorTorCAny扩展的遗传学字母表或IUPAC编码1、字母表和序列特定的符号—代表字母表A*—代表由字母表A中字符所形成的一系列有限长度序列或字符串或序列的集合a、b、c—代表单独的字符s、t

4、、u、v—代表A*中的序列

5、s

6、—代表序列s的长度为了说明序列s子序列和s中单个字符,在s中各字符之间用数字标明分割边界例如,设s=ACCACGTA,则s可表示为0A1C2C3A4C5G6T7A8i:s:j指明第i位或第j位之间的子序列,当然,0ij

7、s

8、。子序列0:s:i称为前缀,即prefix(s,i)子序列i:s:

9、s

10、称为后缀,即suffix(s,

11、s

12、-i+1)i:s:i—为空序列j-1:s:j—表示s中的第j个字符,简记为sj子序列与子串子序列:选取s中的某些字符(或删除s中的某些字符)而形成s的子序列例如:TTT是ATATAT

13、的子序列。s的子串:是由s中相继的字符所组成。例如:TAC是AGTACA的子串,但不是TTGAC的子串(是子序列)。子串是子序列子序列不一定是子串字符串操作字符串连接操作:两个序列s和t的连接:s++t例如:ACC++CTA=ACCCTA字符串k操作—删除字符串两端的字符其定义如下:prefix(s,l)=sk

14、s

15、-lsuffix(s,l)=k

16、s

17、-lsi:s:j=ki-1sk

18、s

19、-j序列比较可以分为四种基本情况:(1)两条长度相近的序列相似找出序列的差别 (2)判断一条序列的前缀与另一条序列的后缀相似 (3)判断一条序列是否是另一条序

20、列的子序列 (4)判断两条序列中是否有非常相似的子序列2、编辑距离(EditDistance)GCATGACGAATCAGTATGACAAACAGCGCATGACGAATCAGTATGAC-AAACAGC说明两条序列的相似程度——〉定量计算两条序列的相似程度的定量计算相似度,它是两个序列的函数,其值越大,表示两个序列越相似两个序列之间的距离。距离越大,则两个序列的相似度就越小字符编辑操作(EditOperation)字符编辑操作可将一个序列转化为一个新序列Match(a,a)Delete(a,-)Replace(

21、a,b)Insert(-,b)直接距离计算的不足扩展的编辑操作ACCGACAATATGCATAATAGGTATAACAGTCAACCGACAATATGCATAACTGACAATATGGATA第二条序列头尾颠倒CTAGTCGAGGCAATCTGAACAGCTTCGTTAGT?反向互补序列RNA发夹式二级结构3、通过点矩阵进行序列比较“矩阵作图法”或“对角线作图”→序列1→→序列2→实例→序列1→→序列1→自我比较滑动窗口技术两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。滑动窗口技术使用滑动窗口代替

22、一次一个位点的比较是解决这个问题的有效方法。假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。