欢迎来到天天文库
浏览记录
ID:33219124
大小:3.75 MB
页数:89页
时间:2019-02-22
《原核生物基因识别新算法研究及dna序列分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、天津大学硕士学位论文原核生物基因识别新算法研究及DNA序列分析姓名:林岩申请学位级别:硕士专业:生物物理学指导教师:张春霆20061201摘要目前,随着DNA测序技术的发展,从细菌到高等真核生物,越来越多的全基因组序列数据正不断涌现。理论和计算将发挥日益巨大的作用,生物信息学作为一门崭新的前沿学科应运而生。基因识别是进行基因组分析的第一步,在生物信息学研究中占有重要的地位。本论文主要致力于原核生物的蛋白质编码基因识别算法的研究,以及对DNA序列的相关分析。论文第一部分对当前生物信息学的主要研究内容和原核生物基因识别的背景作了简要介绍。论文第二部分利用一些生物信息学工
2、具,如Zcurve、Glimmer以及BLAST等软件,对一株蜡状芽孢杆菌(BacilluscereusATCC10987)基因组中的蛋白质编码基因进行了分析,并将原RetSeq数据库标注的5603个基因重新注释为5180个基因,这个结果与该细菌亲缘物种的表现一致。另外,新注释在功能已知或保守基因的比例、平均基因长度以及GC含量等指标上明显优于原始注释,证明了重新注释的基因的合理性。论文第三部分主要致力于一种新的识别细菌和古细菌基因组蛋白质编码基因的算法一Zcurve2.0的研究。该算法以相位特异性Z曲线理论为基础,综合考虑密码子内部相邻碱基之间的相关性,发展了新的
3、特征变量和样本。并在编码与非编码ORFs的分类算法方面,使用了支持向量机方法进行训练与判别。另外对现有基因组及其注释基因进行分析,从中生成用于评价各种基因识别算法性能的参考数据集。依据这419条染色体序列数据,将Zcurve2.0与Zcurve1.02、Glimmer3.02进行比较。结果表明,三者的平均识别率相差很小;Zcurve2.0和Glimmer3.02的平均附加预测率处于同一水平,且均比Zcurve1.02有明显降低;另外Zcurve程序的运行速度和易用性要远好于Glimmer3。02。当把Zcurve2.0和Glimmer3.02联合使用时,预测成绩通常
4、会显著提高。论文第四部分描述了Z曲线数据库和必需基因数据库的更新。Z.ctlrveDatabase2.1提供了一个方便可视化分析基因组数据的有力平台;DEG3.0为分析必需基因的统计特征,开发预测必需基因的算法提供了基础。关键词:Z曲线,细菌和古细菌基因组,基因识别,重新注释,数据库ABSTRACTNowadays,afloodofsequencedatamearlsthatmanyofthechallengesinbiologyarenowchallengesintheoreticalcomputation.Bioinformaticshasnowfirmlyes
5、tablisheditselfasadisciplineinmolecularbiology,andencompassesawiderangeofsubjectareas.Identificationofprotein-codinggenesinmicrobialgenomesisoneofthemostimportant。tasksinbioinformatics.Thisdissertationdescribesalittleimprovementinrecognizingprotein·codinggenesinbacterialgenomesusingthe
6、Zcurveme也od.Thefirstpartofthedissertationintroducesthemaincontentsofthecurrentbiomf0衄aticsresearch,andthebackgroundknowledgeaboutgenerecognitioninprokaryotesisalsoreferredinbrief.Thesecondpartofthedissertationdescribes也ere。annotatmnontheDrotein.codinggenesinBacillusceFgusATCC10987genom
7、ebyjointapplicationsofZcurve卸dGlimmerprogram.ToverifytheadditionalORFswhicharenotincludedintheoriginalannotation,wealsoutilizethemethodofBLASTdatabasesearchforbetteraccuracy.Consequently,thenumberofre-annotatedprotein。codinggenesIntheB口cf,mscP您wsATCC10987genomeisfoundtObe5180,whichis
此文档下载收益归作者所有