《基因预测补充》PPT课件

《基因预测补充》PPT课件

ID:38755810

大小:929.51 KB

页数:30页

时间:2019-06-18

《基因预测补充》PPT课件_第1页
《基因预测补充》PPT课件_第2页
《基因预测补充》PPT课件_第3页
《基因预测补充》PPT课件_第4页
《基因预测补充》PPT课件_第5页
资源描述:

《《基因预测补充》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基因预测11.基因预测意义2.基因预测原理3.基因预测常用软件4.存在的主要问题21.基因预测意义3据GOLD(GenomesOnLineDatabase)网站统计,截止到2009年3月1日,已经完成测序的基因组有958种,正在进行测序的多达3655种。大量生物基因组计划的完成提供了极其丰富的生物序列资源,如何进行序列注释是测序后所面临的首要问题。从目前的研究来看,基因组序列由3种成分构成:基因序列、重复序列、基因间区序列。基因序列在高等生物基因组中所占的比例可能并不大,但却是控制生物性状遗传的主要因素,正确鉴定它们对分子遗传学研究至关重要。452.基

2、因预测原理••••••原核基因结构真核基因结构马尔可夫模型与隐马尔可夫模型基因预测算法的分类原核生物中的基因预测真核生物中的基因预测62.1原核基因结构•原核生物基因组小,基因密度高,很少存在重复序列,一个基因是由编码一个蛋白质或RNA的开封阅读框构成,中间没有间断。•细菌的起始密码子为:ATG,GTG,TTG•核糖体结合位点(Shine-Delgaronsequence)•终止密码子较容易确定•转录终止子•密码子偏好性翻译起始位点翻译终止位点编码区转录终止子TTTTT7转录起始位点AGGAGGT核糖体结合位点2.2真核基因结构•基因组较大,基因密度低

3、,富含重复序列和转座元件;最重要的是基因被插入的非编码序列(内含子)切分成小段(外显子)。•初生的转录产物需要经过三个步骤转变成成熟的可翻译为蛋白的mRNA。•真核基因预测的主要问题是识别外显子、内含子和间接位点。•真核基因中存在一些保守序列特征有助于进行计算预测,如:GT-AG规则,密码子偏好性,六聚体频率,kozak序列,CpG岛,poly-A82.3马尔可夫模型与隐马尔可夫模型•马尔可夫模型是描述一条DNA序列中核苷酸分布的模型。•用马尔可夫模型进行基因预测利用以下事实:编码区寡核苷酸分布概率与非编码区不同。9•统计分析表明密码子对具有相关性。一

4、组六聚体核苷酸在编码区出现的概率要比随机分布概率高,因此,用计算六聚体碱基概率的五阶马尔可夫模型来检测编码区中核苷酸的相关性准确度更高,也较为常用。•在基因内容和长度分布上,非典型的基因和典型基因是不同的,预测典型基因的模型可能会漏掉对非典型基因的预测。为了使一个算法适用于整个基因组中的全部基因,就需要更多的马尔可夫模型。结合代表典型与非典型核苷酸分布的不同的马尔可夫模型,建立了隐马尔可夫模型预测算法。(Gene2.4基因预测程序分类•基于从头算的方法(Abinitio-based):以给定的序列本身来进行预测,主要依赖于以下两个特征:基因信号(Gen

5、esignals):包括起始终止密码子,内含子剪接信号,转录因子结合位点,核糖体结合位点以及Poly-A等。基因内容(Gcontent):对编码区的统计学上的描述。可以由概率模型:马尔可夫模型或隐马尔可夫模型检测到这一特性,用以区别编码与非编码区。•基于同源性的方法(Homology-based)以检索序列与已知基因的序列最大的匹配为基础。•基于一致性的算法(Consensusbased)以上两种策10略相结合。2.5原核生物中的基因预测•由于原核生物基因组密度较高且没有插入基因,其预测较真核生物简单。目前,基于HMMs的原核生物基因预测算法已经达到相

6、当高的准确度。•主要对真核生物中的基因预测做详细介绍。112.6真核生物中的基因预测•统分为三大类:以从头算的方法为基础以同源性的方法为基础以一致性为基础•大部分程序是物种专一的,这是由于用于获得统计参数的训练数据必须由单一生物体取得。122.6.1基于从头算(Abinitio-based)•此程序的目标是从非编码序列中辨别外显子,的程序随后使外显子以正确的次序排列。•主要困难之处在于正确识别外显子。要预测外显子,算法依赖于两个方面特征,基因信号和基因内容。其中,六聚体频率对识别可能的编码区来说是最具有鉴别力的。•以下分别介绍用判别分析和隐马尔可夫模型

7、进行预测的原理。132.6.1.1用判别分析进行预测•一些基因预测程序依赖于判别分析,线性判别分析(LDA)或二次判别分析(QDA),来提高准确性。•LDA或QDA用编码信号对应的所有可能的3’端剪接位点作二维图,并用斜线或曲线来划分编码与非编码信号,这是以已知基因结构的培训数据集的知识为基础的。•E.g:FGENES,MZEF.142.6.1.2用隐马尔可夫模型进行基因预测•GENESCAN是以网络为基础的基于五阶马尔可夫模型进行基因预测的程序。•它结合六聚体频率以及编码信号(起始密码子,TATAbox,帽子位点,poly-A等)进行预测。•假定的外

8、显子能够成为真外显子的概率得分为P,只有当P大于0.5时,才被认为是可靠的。•此程序训练用于脊

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。