欢迎来到天天文库
浏览记录
ID:27900290
大小:349.50 KB
页数:13页
时间:2018-12-06
《真核生物5’端外显子和翻译起始位点的预测.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、真核生物5’端外显子和翻译起始位点的预测PredictionofFirstExonsandTranslationInitiationSitesinEukaryoticGenomes力学与工程科学系00级胡钢清GangqingHuDept.ofMechanicsandEngineeringScience摘要真核生物翻译起始位点(TIS,translationinitiationsites)的正确预测对于基因的正确注释有着重大的意义。本文试图通过发展和结合一些现有的算法来较好地预测出真核生物翻译起始位点。本文算法的得出主要基于三种方法自然结合。我们
2、首先基于简单的权重矩阵方法(WMM,WeightMatrixMethod)【1】,发展了多状态信号的熵距离判别分析方法,由此可以得到一些待定ATG信号,这些信号包含了大部分的翻译起始位点。接下来,我们采用WMM找出与该ATG对应的GT信号并将它们之间的序列提出(这里ATG信号以及GT信号的定义详见正文)。通过引入模糊词汇的概念,我们发现翻译起始位点前存在某些模糊词汇,这样可以通过判断ATG信号前是否含有某个“模糊词汇”进一步选出待定ATG信号。最终我们结合了佘振苏教授提出的以统计语言学为特色的多元熵距离(multivariateentropyd
3、istance,MED)方法【2】对这些ATG信号对应的阅读框在20维空间中进行多中心聚类形成了预测翻译起始位点的完整算法并达到了较好的结果。1引言2001年2月,人类基因组计划的相关组织和机构公布了人类基因组测序草图【3】,人类基因组计划的提前完成,基因组的研究热点已转向揭示基因信息结构的复杂性与遗传语言的根本规律。其中,基因预测算法的研究也成为对基因组序列进行统计分析的重要目标。所谓基因预测,就是在对DNA序列编码潜能(codingpotentials)提出某种模式(pattern)描述的基础上,对一未知的DNA序列上完整的基因结构进行注释
4、。对于原核生物,由于其基因结构较为简单,在基因组的DNA链上表现为一个编码蛋白质的基因对应为一段连续的开放阅读框(openreadingframe,ORF),因此,基因预测的问题也相对简单,本人所在的佘振苏教授研究小组已经在这方面取得了很好的结果【4】。但是对于真核生物,它们的基因结构远比原核生物的复杂,许多基因是断裂基因,间断成外显子(exon)和内含子(intron),并且exon在序列中长度比例极小【5】。生物体通过对剪接位点(SpliceSite)的剪接等过程最终构成蛋白质。现有很多真核生物基因结构的预测算法就是针对SpliceSite
5、的预测,即对外显子的预测,著名的有Genescan,GeneMark等。本质上可以将外显子分为4类:包含起始编码子(startcodon)和终止编码子(terminationcodon)的singleexon,包含起始编码子和供体位点(donorsite)的firstexon,包含受体位点(acceptorcite)和供体位点的internalexon,以及包含受体位点和终止编码子的terminalexon【6】。现有基因预测软件中对于firstexon、terminalexon以及singleexon,它们的识别精度通常都大大低于intern
6、alexon的识别精度【7】。Firstexon的预测实际上包含了对翻译起始位点的预测。本文重点在于翻译起始位点的预测算法设计,同时也给出了5’端外显子(即firstexon)的预测结果。一般认为,对基因结构预测所用到的信息有三部分组成:序列上的信号(signal),内容(content)统计以及与已知基因的相似度(similarity)【8】。我们用到的信息只是包含了前两部分,对ATG信号的多状态熵距离判别分析以及找出模糊词汇是属于信号的范畴,而对阅读框运用MED方法实际上关系到了内容统计。在预测时,我们采用的算法是简单的线性判别。2材料我们
7、采用了Kulp&Reese(1995)、ALLSEQ【9】以及HMR195【7】三部分数据集,其中前两者的部分序列作为学习集,最后者的部分数据作为测试集。如引言所提到,真核生物的基因按是否含有内含子可以分为多外显子基因以及单外显子基因。实际上,前者在数目上占绝大多数,因而本文关心的是对多外显子基因中的翻译起始位点以及5’端外显子的研究与预测。Kulp&Reese(1995)提供的数据集是通过运用BLASTP【10】删除一些相似和冗余的序列后得到的。数据库包含了人类的单外显子基因186个,多外显子基因304个,其中多外显子基因中共包含1798个外
8、显子。我们直接采用了其中的304个多外显子基因作为学习集的一部分。ALLSEQ数据集经过了一些严格的标准【11】筛选、整理出来的。它包含的是一些脊椎动
此文档下载收益归作者所有