真核生物5‘端外显子和翻译起始位点的预测

真核生物5‘端外显子和翻译起始位点的预测

ID:18493732

大小:353.50 KB

页数:13页

时间:2018-09-19

真核生物5‘端外显子和翻译起始位点的预测_第1页
真核生物5‘端外显子和翻译起始位点的预测_第2页
真核生物5‘端外显子和翻译起始位点的预测_第3页
真核生物5‘端外显子和翻译起始位点的预测_第4页
真核生物5‘端外显子和翻译起始位点的预测_第5页
资源描述:

《真核生物5‘端外显子和翻译起始位点的预测》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、北京大学校长基金论文集(2003年)真核生物翻译起始位点预测真核生物5’端外显子和翻译起始位点的预测PredictionofFirstExonsandTranslationInitiationSitesinEukaryoticGenomes力学与工程科学系00级胡钢清GangqingHuDept.ofMechanicsandEngineeringScience摘要真核生物翻译起始位点(TIS,translationinitiationsites)的正确预测对于基因的正确注释有着重大的意义。本文试图通过发展和结合一些现有的算法来较好地预测出真核生物翻译起始位点。本文算法的得出主要基于三种方法自

2、然结合。我们首先基于简单的权重矩阵方法(WMM,WeightMatrixMethod)【1】,发展了多状态信号的熵距离判别分析方法,由此可以得到一些待定ATG信号,这些信号包含了大部分的翻译起始位点。接下来,我们采用WMM找出与该ATG对应的GT信号并将它们之间的序列提出(这里ATG信号以及GT信号的定义详见正文)。通过引入模糊词汇的概念,我们发现翻译起始位点前存在某些模糊词汇,这样可以通过判断ATG信号前是否含有某个“模糊词汇”进一步选出待定ATG信号。最终我们结合了佘振苏教授提出的以统计语言学为特色的多元熵距离(multivariateentropydistance,MED)方法【2】对

3、这些ATG信号对应的阅读框在20维空间中进行多中心聚类形成了预测翻译起始位点的完整算法并达到了较好的结果。1引言2001年2月,人类基因组计划的相关组织和机构公布了人类基因组测序草图【3】,人类基因组计划的提前完成,基因组的研究热点已转向揭示基因信息结构的复杂性与遗传语言的根本规律。其中,基因预测算法的研究也成为对基因组序列进行统计分析的重要目标。所谓基因预测,就是在对DNA序列编码潜能(codingpotentials)提出某种模式(pattern)描述的基础上,对一未知的DNA序列上完整的基因结构进行注释。对于原核生物,由于其基因结构较为简单,在基因组的DNA链上表现为一个编码蛋白质的基

4、因对应为一段连续的开放阅读框(openreadingframe,ORF),因此,基因预测的问题也相对简单,本人所在的佘振苏教授研究小组已经在这方面取得了很好的结果【4】。但是对于真核生物,它们的基因结构远比原核生物的复杂,许多基因是断裂基因,间断成外显子(exon)和内含子(intron),并且exon在序列中长度比例极小【5】。生物体通过对剪接位点(SpliceSite)的剪接等过程最终构成蛋白质。现有很多真核生物基因结构的预测算法就是针对SpliceSite的预测,即对外显子的预测,著名的有Genescan,GeneMark等。本质上可以将外显子分为4类:包含起始编码子(startcod

5、on)和终止编码子(terminationcodon)的singlelocatedintheTomb,DongShenJiabang,deferthenextdayfocusedontheassassination.Linping,Zhejiang,1ofwhichliquorwinemasters(WuzhensaidinformationisCarpenter),whogotAfewbayonets,duetomissedfatal,whennightcame13北京大学校长基金论文集(2003年)真核生物翻译起始位点预测exon,包含起始编码子和供体位点(donorsite)的firs

6、texon,包含受体位点(acceptorcite)和供体位点的internalexon,以及包含受体位点和终止编码子的terminalexon【6】。现有基因预测软件中对于firstexon、terminalexon以及singleexon,它们的识别精度通常都大大低于internalexon的识别精度【7】。Firstexon的预测实际上包含了对翻译起始位点的预测。本文重点在于翻译起始位点的预测算法设计,同时也给出了5’端外显子(即firstexon)的预测结果。一般认为,对基因结构预测所用到的信息有三部分组成:序列上的信号(signal),内容(content)统计以及与已知基因的相似

7、度(similarity)【8】。我们用到的信息只是包含了前两部分,对ATG信号的多状态熵距离判别分析以及找出模糊词汇是属于信号的范畴,而对阅读框运用MED方法实际上关系到了内容统计。在预测时,我们采用的算法是简单的线性判别。2材料我们采用了Kulp&Reese(1995)、ALLSEQ【9】以及HMR195【7】三部分数据集,其中前两者的部分序列作为学习集,最后者的部分数据作为测试集。如引言所提到,真核生物

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。