4.gene finding

4.gene finding

ID:23808531

大小:415.50 KB

页数:10页

时间:2018-11-10

4.gene finding_第1页
4.gene finding_第2页
4.gene finding_第3页
4.gene finding_第4页
4.gene finding_第5页
资源描述:

《4.gene finding》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基因预测方法石忆湘,王卓上海生物信息技术研究中心自从人类基因组计划于1990年正式启动,人和其它一些模式生物的DNA序列数据库就以十分惊人的速度扩增,越来越多的原始序列需要进行注释。科学家们需要各种基于计算方法的基因预测工具,来快速准确地对大量的未知基因组数据进行分析。因此,在过去十多年里,许多基因识别程序被开发了出来。1引言基因的总体结构大致包括:上游的启动子(Promoter)区域,包含转录起始位点;以及经转录的结构或称编码区。这些区域的DNA序列可以提供关于该区域可能发挥的生物学作用的信息,

2、因此一经识别,可以告诉我们基因的可能位置。人类基因组中约90%是非编码的,也就是说,只有10%左右编码蛋白序列。但无疑这些非编码区也起着某些作用,比如调节蛋白合成,从而控制细胞功能。了解这部分序列的作用是有必要的。为此我们首先需要找到基因,即蛋白编码序列。定位蛋白编码区最简单的方法是寻找开放阅读框(openreadingframe,ORF)。ORF就是从起始密码子(startcodon)开始,到终止密码子(stopcodon)结束,而且其中不包含其它终止密码子的一段序列。图1原核生物的基因结构关于

3、基因结构,原核生物和真核生物有较大区别。原核细胞中大多数DNA序列都是编码蛋白的,例如约70%的H.influenzae基因组参与蛋白编码。另外编码区域往往出现在一大段连续的碱基中,也就是说,编码区中没有内含子(intron)。(如图1所示)。所以原核生物的基因识别相对说来比较容易,只需要寻找长的ORF即可。与原核不同,真核生物基因组序列中包含外显子(exon)和内含子。典型的多外显子基因具有如下结构(如图2所示)。它以promoter区开始,然后是一段非编码区,称为5’非转译区(5’UTR)。接

4、着是包含起始密码子的起始exon。这之后则是交替出现的内含子和中间外显子。然后是包含终止密码子的最终外显子。接下来是一段非编码区,称为3’非转译区(3’UTR)。最后是一串polyA序列。外显子与内含子边界(即剪切位点)的标志是一些特定的较短序列。内含子(外显子)的5’(3’)端叫做供体(donor)位点;内含子(外显子)的3’(5’)端叫做受体(acceptor)位点。启动子exon1intron1exon2intron2exon3DNAgtaggtag上游下游转录5’UTR3’UTR初级RNA

5、5’gtaggtag3`RNA剪切5’augUTR3`aaa…uga,uaa,uag成熟RNA翻译蛋白质图2真核生物基因的完整结构以及它的表达过程真核生物基因识别较为复杂,还表现在其结构的多变性。例如,平均说来,脊椎动物的基因长度大约为30kb,其中编码区域只有约1kb。通常编码区域包括6个外显子,每个长约150bp。但起始、中间和最终外显子的长度分布略有不同。迄今为止尚没有一个“完美”的基因预测程序。现有的各种方法都有其局限性和弊端。不过近年来这些方法在基因结构预测的灵敏度和特异性方面都有些提高

6、。这些提高大多是由于结合了其它找寻基因的手段,例如序列相似性、各种信号及密码子偏好性(codonbias)等。即使这样,预测结果也还远远称不上理想。各种方法的预测准确性一般都在60%-80%之间。这主要是由于我们对基因的所有信号和结构信息还缺乏全面的了解,因此难以进一步提高预测准确性。2基因识别方法基因识别需要解决两大问题:预测出编码蛋白质的区域,并找出基因的各个功能位点。我们可以将这方面的大量研究大致划分为四个阶段。第一阶段主要是致力于发现基因组DNA中编码区域的位置。代表这一阶段的两种程序,一

7、个是TestCode,基于Fickett等1982年的工作,另一个是GRAIL(Uberbacher&Mural,1991)。它们的缺点是不能准确预测外显子的位置。第二阶段,如SORFIND(Hutchinson&Hayden,1992)、Xpound(Thomas&Skolnick,1994)等,结合了剪切信号和编码区识别,并据此预测可能的外显子,但没有进一步将预测到的外显子拼接成完整的基因。第三阶段的程序开始试图预测完整的基因结构,包括GeneID(Guigoetal.,1992)、GeneP

8、arser(Snyder&Stormo,1993,1995)、GenLang(Dong&Searls,1994)等。但是这些程序的预测准确率总是不太理想。另外的问题是,它们一般都假定输入的序列中只包含一个基因。因此后期的研究工作主要致力于提高预测准确率及适用范围,于是产生了Genscan(Chris.Burge,1997)、AUGUSTUS(MarioStanke,2003)等代表第四阶段的程序。主要的基因识别方法大体上可以分为两大类。一类是基于序列相似性搜索的,另一类基于基因结构

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。