基因组序列诠释辽宁师范大学.ppt

基因组序列诠释辽宁师范大学.ppt

ID:50114320

大小:2.94 MB

页数:63页

时间:2020-03-05

基因组序列诠释辽宁师范大学.ppt_第1页
基因组序列诠释辽宁师范大学.ppt_第2页
基因组序列诠释辽宁师范大学.ppt_第3页
基因组序列诠释辽宁师范大学.ppt_第4页
基因组序列诠释辽宁师范大学.ppt_第5页
资源描述:

《基因组序列诠释辽宁师范大学.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第5章基因组序列诠释完成基因组测序仅仅是基因组计划的第一步,更大的挑战在于弄清:①基因组顺序中所包含的全部遗传信息是什么?②基因组作为一个整体如何行使其功能?这两项任务都必须依赖于对基因组顺序的正确注解或诠释(annotation),首先是从已知顺序中搜寻基因。5.1搜寻基因一旦获取基因组的DNA顺序后,不管它是来自某一区段还是一整条染色体,第一个任务就是从中查找基因,这是解读整个基因组的基础。查找基因有两种常见的方法:①根据已知的顺序人工判读或计算机分析寻找与基因有关的序列;②进行实验研究,看其能否表达基因产物及其对表型的影响。5.1.1根据顺序分析搜寻基因如果一段D

2、NA顺序中含有编码基因,那么这段顺序的碱基序列就不会是随机排列的,一定存在某些可以辨别的特征。目前还没有一个能适用于所有情况的“基因序列”的标准,只能根据已知的某些规律来推测哪些顺序可能是基因。开放读框基因都含有开放读框(openreadingframes,ORFs),它们由一系列指令氨基酸的密码子(codons)组成。开放读框有一个起点,又称起译密码(initiationcodon):ATG;还有一个终点,又称终止密码(terminationcodon):TAA、TAG和TGA。从DNA顺序中搜寻基因总是从第一个ATG开始,然后向下游寻找终止密码。在开始这项工作之前,

3、我们并不知道DNA双链中哪一条单链是编码链,或称正(+)链,也不知道准确的转译起始点在何处。由于每条链都有三种可能的读框,两条链共计6种读框,计算机可以很快给出结果。ORF扫描的关键是终止密码在6种读框中出现的频率。如果DNA的碱基排列是随机的,并且GC含量为50%,则三个终止密码子:TAA、TAG和TGA出现的平均机率为每43=64bp一次。假如GC比大于50%,因终止密码中AT比例高,则每隔100-200bp才会出现一个终止密码。随机碱基排列的ORF长度预计不超过50个密码子,即150bp,以ATG起始计算长度更短。大多数基因的ORF均多于50个密码子,因此最可能的

4、选择应该是ORF不少于100个密码子的读框。细菌基因组中缺少内含子,非编码序列仅占11%,对读框的排查干扰较少。假定基因之间不存在重叠顺序,也无基因内基因(gene-within-gene),那么ORF阅读出现差错的最大可能性只会发生在非编码区。细菌基因组的ORF阅读相对比较简单,错误的机率较少。高等真核生物DNA的ORF阅读比较复杂,其原因在于:①基因间存在大量非编码序列(人类基因组中占70%);②绝大多数基因含有非编码的内含子。高等真核生物多数外显子的长度少于100个密码子,有些不到50个密码子甚至更少,因此当读码进入内含子时很快遇上终止密码,难以根据上述的ORF长

5、度来判断哪种读框是正确的。内含子的出现给计算机判读基因带来不少问题,在编写ORF扫描程序时要作许多修改,必须加入一些相应的规则:①密码子偏爱生物具有通用的64种密码子,其中三种为终止密码子,其余61种密码子编码20种氨基酸,除甲硫氨酸(Met)和色氨酸(Trp)各有1个密码子外,其他氨基酸都拥有多个密码子。编码同一氨基酸的不同密码子称为同义密码(synonym),其差别仅在密码子的第三位碱基不同。不同种属之间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用。苏氨酸(Thr)常用的密码子为ACA,ACC或ACT

6、,很少用ACG。高等植物207个基因的编码顺序,其中单子叶植物基因53个,双子叶植物基因154个,分属6个单子叶和35个双子叶种群。单子叶与双子叶主群密码子(majoritycodon)中第三个摇摆碱基的成员比例明显不同。单子叶18种氨基酸中有16种氨基酸的密码子摇摆碱基为G+C,而双子叶中仅有7种氨基酸的密码子摇摆碱基为G+C,或者说双子叶密码子摇摆碱基大多为A+T。这一现象称为密码子偏爱(codonbias),其产生的原因不明。特定种属有特征性的密码子偏爱,这些序列在编码区常常出现,非编码区只保持平均的碱基分布水平。根据已有生物密码子偏爱的资科在编写相应的计算机程序

7、时可加入这些限制。②外显子-内含子边界(exon-intronboundaries)外显子与内含子的边界区有一些明显的特征,如内含子的5’端或称供体位(donorsite)常见的顺序为5’-AG↓GTAAGT-3’,3’端又称受体位(acceptorsite)多为5’-PyPyPyPyPyPyCAG-3’(“Py”为嘧啶核苷酸,T或C)。这是判断编码顺序的依据之一。由于外显子-内含子边界顺序常有例外,编写通用的判读程序时有不少困难,上述规律仅适用一定范围。③上游控制顺序(upstreamcontrolsequence)几乎所有的基因(或操

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。