资源描述:
《转录剪切位点资料讲解.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、转录剪切位点2.子串(substring)和子序列(subsequence),二者不是相同的概念。子串和超串s=ATGCGGTA;t=TGCGG;s是t的超串子序列和超序列s=ATGCGGTA;t=TGTA;s是t的超序列区间(interval)s=ATGCGGTACGTATACG;u=CG,s[i,i+1]3.串u和w的拼接(concatenation),表示为uw。例如s=ATGCGGTA;t=TGCGGst=ATGCGGTATGCGGts=TGCGGATGCGGTA串的冥s=AT;sss=ATATAT=s3串的前缀(prefix)s=ATGCGGTAGC;
2、prefix(s,3)=ATG;prefix(s,0)=ε存在且只存在s的另1个子串u,使得s=tu,t是u的前缀。串的后缀(suffix)s=ATGCGGTAGCsuffix(s,3)=AGC;suffix(s,2)=GC;suffix(s,0)=ε存在且只存在s的另1个子串u,使得s=ut,t是u的后缀。杀手因子(killeragent),假定存在1个特别的串κ
3、κ
4、=-1在与其它串拼接的时候,起到删除相邻字符的作用例如,s=ATGCGGTAGCκs=TGCGGTAGCsκ=ATGCGGTAGATGCκGGTAG?无意义(ATGCκ)GGTAG≠ATGC(κ
5、GGTAG)stu=(st)u=s(tu);
6、s
7、≠-1,
8、t
9、≠-1,
10、u
11、≠-1
12、st
13、=
14、s
15、+
16、t
17、,s和t可以是任何串利用杀手因子可以表示1个串的子串,前缀和后缀s[i…j]=κi-1sκ
18、s
19、-jprefix(s,k)=sκ
20、s
21、-kSuffic(s,k)=κ
22、s
23、-ks第二节序列比较序列比较的根本任务:发现序列之间的相似性辨别序列之间的差异序列比较的目的:相似序列相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系序列的相似性同源(homology)-具有共同的祖先直向同源(Orthologous)共生同源(paralogous)相似
24、(similarity)同源序列一般是相似的相似序列不一定是同源的进化趋同(同功能)直向同源(a1inspeciesI,a1inspeciesII)共生同源(a1anda2inspeciesI)进化趋同水平转移基因复制序列相似性的描述定性的描述定量的数值相似性距离序列比较的基本操作是比对(Alignment)两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列。例如,设有两个序列:s=GACGGATTAG,t=GATCGGAATAGAlignment2:GA-CGGATTAGGATCGGAATAGAlignment1:GACGGATTAGG
25、ATCGGAATAG字母表和序列字母表(字符或符号集合)4字符DNA字母表:{A,C,G,T}扩展的遗传学字母表或IUPAC编码单字母氨基酸编码符号含义说明GGGuanineAAAdenineTTThymineCCCytosineRGorAPurineYTorCPyrimidineMAorCAminoKGorTKetoSGorCStronginteraction(3Hbonds)WAorTWeakinteraction(2Hbonds)HAorCorTNot-GBGorTorCnot-AVGorCorAnot-T(not-U)DGorAorTnot-CNGorA
26、orTorCAny扩展的遗传学字母表或IUPAC编码序列比对的生物学背景分子生物学实验技术和大规模测序方法的发展,使复杂序列之间的比较成为实验室的常规数据分析。基因组学的发展,物理图谱的构建,DNA的拼接求。一个或一些序列与其它数据序列的比较。两个序列之间是否存在相同的子串。个序列与数据库中序列是否存在相似的子串。序列比较可以分为五种基本情况:(1)两条长度相近序列相似性分析,找出序列的差别(2)判断一条序列的前缀与另一条序列的后缀相似(3)判断一条序列是否是另一条序列的子序列(4)判断两条序列中是否有非常相似的子序列(5)对多个序列进行上述4种
27、分析第三节两个序列的比较全局比较——基本算法通过全局比对(globalalignment),了解序列的相似性例如,s=ATTGCATATG;t=ATTGATATCs=ATTGCATATGt=ATTG–ATATC记分系统的引入与比对打分匹配=1空配=-2错配=-1对s,t进行相似性比较,得到的最大记分值,称为2序列的相似性,表示为sim(s,t)=max{scorei}s=ATTGCATATG;s=ATTGCATATGt=ATTG–ATATC;t=ATTGATATC-8+(-2)+(-1)=54+(-2)+(-1)×5=-12.局部比较序列s和t的局部比较是通过局
28、部比对(localali