欢迎来到天天文库
浏览记录
ID:17966531
大小:2.73 MB
页数:80页
时间:2018-09-11
《基于集成学习的蛋白质序列分类问题的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕士学位论文MASTERTHESIS论文题目基于集成学习的蛋白质序列分类问题的研究学科专业计算机软件与理论学号201521060205作者姓名赵欣指导教师傅彦分类号密级注1UDC学位论文基于集成学习的蛋白质序列分类问题的研究赵欣指导教师傅彦教授电子科技大学成都申请学位级别硕士学科专业计算机软件与理论提交论文日期2018.03.23论文答辩日期2018.05.21学位授予单位和日期电子科技大学2018年6月答
2、辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。ResearchontheMethodofEnsembleLearningbasedProteinSequenceClassificationAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaDiscipline:ComputerSoftwareandTheoryAuthor:XinZhaoSupervisor:Prof.YanFuSchool:Schoolof
3、ComputerScience&Engineering—独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研宄成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表不谢意。■>作者签名:日期:讲设年乂月!日论文使用授权本学位论文作者完全了解电子科技大学有
4、关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)h作者签名:i欣、导师签名:^日期:辦日摘要摘要随着信息技术的蓬勃发展,计算机科学逐渐渗透到生物信息的各个领域,催生了一种新的学科——生物信息学。蛋白质作为人体生命活动的主要承担者,对它的研究能使我们对疾病
5、的机理更加了解,同时对药物的设计也有促进作用。目前生物信息学正处于后基因组时代,大量的蛋白质序列被测定,提供给研究人员的实验数据和可利用信息急剧增加,传统的生物学研究方法无法及时消化新的数据,并把其转化为相应的科学知识。因此,开发可靠的计算方法,快速精确地预测蛋白质的功能尤其重要。基于集成学习,本论文对蛋白质序列的分类预测进行了深入研究,具体的研究内容如下:1)为了更加有效地挖掘蛋白质序列中所包含的信息,本文使用了一种基于g-gap三肽组成的蛋白质序列特征提取方法,利用不同间隔的三个氨基酸残基的组成在蛋白质序列中出
6、现的频率构成特征向量,进而建模分类;此外,本文还提出了一种基于特殊功能区思想的特征离散化方法。这两种方法构成的特征向量所构建的模型,均在噬菌体病毒蛋白数据集上取得了较好的分类结果,说明了特征提取方法的有效性。此外,本文将二肽不同间隔的特征进行融合,使特征之间的信息互补,也取得了较好的分类效果。2)提出了一种基于机器学习方法的集成学习方法,该方法对多特征空间构造多种基分类器,并使用逻辑斯蒂回归或决策树的方式对基分类器结果进行集成。生物信息学中所采用的集成方法,大都是针对单一特征空间构造多种不同的基分类器,或对多种特征
7、空间构造同种分类器,利用简单投票的方式进行集成。为了充分利用不同算法从不同的数据空间角度对数据的不同观测,使模型之间能够充分的取长补短,我们对多特征空间构造了多种不同的基分类器,并利用逻辑斯蒂回归等机器学习方法对结果进行集成。3)提出了一种新的基于逻辑运算的集成学习方法。该方法思想简单,仅采用了与、与非、或、或非四种运算,且摆脱了传统集成学习方法对基分类器的差异性的要求,即便是对于相似的基分类器,也能取得较好的集成效果,并在噬菌体病毒蛋白数据集上得到了验证。关键词:蛋白质序列分类,集成学习,特征提取IABSTRAC
8、TABSTRACTWiththerapiddevelopmentsofinformationtechnology,computersciencehasgraduallypenetratedintomanyfieldsofbiologicalinformation,soanewdiscipline,bioinformatics,emerged.Proteini
此文档下载收益归作者所有