欢迎来到天天文库
浏览记录
ID:33569631
大小:5.84 MB
页数:71页
时间:2019-02-27
《基于集成学习与多标记学习的蛋白质分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、厦门大学学位论文原创性声明本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。本人在论文写作中参考其他个人或集体已经发表的研究成果,均在文中以适当方式明确标明,并符合法律规范和《厦门大学研究生学术活动规范(试行)》。另外,该学位论文为()课题(组)的研究成果,获得()课题(组)经费或实验室的资助,在()实验室完成。(请在以上括号内填写课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特别声明。)声明人(签名):懒川斗年譬月20日厦『]大学学位论文著作权使用声明I嬲螋本人同意厦门大学根据《中华人民共和国学位条例暂行
2、实施办法》等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及其数据库被查阅、借阅。本人同意厦f-1X学将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于:()1.经厦门大学保密委员会审查核定的保密学位论文,于年月日解密,解密后适用上述授权。()2.不保密,适用上述授权。(请在以上相应括号内打“√”或填上相应内容。保密学位论文应是已经厦门大学保密委员会审定过的学位
3、论文,未经厦门大学保密委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权。)声明人(签名):潍佟褪厶l毕年g-月2·日摘要随着大量生物学数据的增长,仅仅利用传统的生物学实验来测定蛋白质结构或其他性质的方法不仅需要耗费大量人力物力,其时间的耗费也是相当大。因此,如何建立自动学习的方法来预测蛋白质,从而大大降低生物实验的成本是一个非常有意义的研究课题。另一方面,随着机器学习技术的快速发展,其应用领域也得到了不断的扩宽,特别是在生物学领域的应用,面对大量的生物信息机器学习得到了充分的应用。本文的
4、主要内容包括以下几个方面:(1)引入了两种蛋白质特征提取方法。本文在蛋白质分类问题当中引入了两种有效的特征提取方法:一种为代表氨基酸组成成分即物理化学特性的混合特征,共计188维;另一种为代表蛋白质同源信息的基于位置特异性得分矩阵的特征,共计20维。两种特征提取方法各有优劣:188维特征提取速度快,但会牺牲一定的准确率;20维特征提取较为耗时,但却具有更高的预测精度。(2)提出了基于集成分类器的蛋白质折叠模式分类方法。蛋白质结构预测是生物信息学当中的重要课题,而蛋白质折叠模式的识别对蛋白质结构预测起到了关键作用。本文针对以往的蛋
5、白质折叠模式分类准确率不高的情况,引入了集成分类器。本文的集成分类器基于投票的机制,最终预测结果集成了两种基分类器的分类结果,在公用数据集中取得了最佳的分类效果。(3)提出了基于多标签学习的双层酶分类模型。第一层模型预测给定的蛋白质序列是否是酶,若是酶,第二层则进一步预测酶的功能子类。多功能酶由于其特殊的性质成为了酶分类问题当中非常棘手的异类。本文利用了机器学习中的多标签分类,解决了以往研究者未曾涉足的多功能酶分类问题,并且取得了很好的分类效果。(4)开发了蛋白质折叠模式在线预测平台PPL以及酶在线预测平台IME。PPL和IME
6、都具有在线预测功能,此外还提供程序的下载以便进行本地实验。网站中还提供本文所用到的数据集下载,方便用户使用与研究。关键词:蛋白质分类;酶分类;多标记学习AbstractWiththegrowthofoverwhelmingamountofbiologicaldata,usingtraditionalbiologicalexperimentsalonetodetermineprotein咖c1[Ⅷ陀sandotherpropertiesnotonlyrequiresalotofmanpowerandresources,butals
7、ocostsalotoftime.Howtobuild‘‘insilicon’’methodsforpredictingproteinsthusreducethecostsofbiologicalexperimentscallbeameaningfultopic.Ontheotherhand,therapiddevelopmentofmachinelearningtechnologyallowsitsapplicationfieldsbeingconstantlywidening,especiallythefieldofbiol
8、ogy—machinelearningc锄befullyappliedwhenfacingthosenumerousbiologicalinformation.Themaincontentsofthispaperincludethefollowingaspect
此文档下载收益归作者所有