欢迎来到天天文库
浏览记录
ID:35067718
大小:6.73 MB
页数:70页
时间:2019-03-17
《基于特征融合和降维算法的蛋白质亚核定位研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TPW密级么兩UDC编号硕女研究4營像化A题目基于特征融含和降维篡法的蛋白质亚巧定位研究-nucTitleProteinsublearlocalizationbasedonfeaturefusionanddimensionreduc村onalgorithm学院c所、中心)信息学院专业名称计算m应用巧乂硏巧生姓名刘树慧学号12013001063导师姓名王顺芳职称教巧二〇—六年五月I扉页:论文独创性声明及使用授权本论文是作者在导师指导下取得的研究成果。除了文中特别加标注和致谢的
2、地方外,论文中不包含其他人已经发表或撰写过的研巧成果,不存在割窃或抄一袭行为。与作者同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。()现就论文的使用对云南大学授权如下:学校有权保留本论文含电子版,也可レッ采用影印、缩印或其他复制手段保存论文;学校有权公布论文的全部或部■,可W将论文用于查阅或借阅服务分内容;学校有权向有关机构送交学位论文用于学术规范审查、社会监督或评奖;学校有权将学位论文的全部或部分内容录入有关数据库用于检索服务。(内部或保密的论文在解密后应遵循此规定)表。八研究生签名1.:文糾乡.导师签名:養日期
3、:1叫摘要,随着人类基因组测序的完成,高通量测序技术逐步流行使得蛋白质序列大一量产生。对新测得序列的蛋白质功能的掌握则成为生物信息学研巧的热点么。,众所周知,蛋白质需要在生物体细胞内执行其生物活动进而得知蛋白质的亚细"胞、亚核定位信息与蛋白质的功能紧密相关,并且蛋白质亚核定位信息还为遗传和癌症等方面疾病的预防、诊断与治疗提供有效的线索。然而传统的通过生物学实验的方法获取蛋白质亚核定位信息需消耗大量的时间与金钱。近年来,随着计算机科学快速地发展,利用机器学习的方法研巧蛋白质亚核定位成为生物信息学研究的一个热点,并且基于机器学习的方法所开发出的定位方法
4、预测速度快且代价较低?。本文正是利用机器学习的方法对蛋白质亚核定位问题展开深入研究。首先全面地对蛋白质亚核定位的基本知识、问题的背景与意义W及研究现状进行阐述;同时对蛋白质亚核定位的主要研究内容给出详细地描述;然后不同角度地对蛋白质序列特征表达和分类器的选择进行探讨,并归结了当前蛋白质序列表达方法存有的问题;最后提出了本文研究蛋白质亚核定位的突破点。提出基于特征融合和有监督的局部保持投影的蛋白质亚核定位方法。由于传一统的特征表达只局限于单方面序列信息来提取蛋白质特征,并且基于传统的特,,没有分析序列表达的数据分布征表达设计分类模型时,使得特征表达与分类
5、方法之间比较孤立,于是,该方法首先对具有序列互补性信息的表达进行融合,一得到种具有高效判别信息的特征融合表达;然后利用有监督的局部保持投影学习数据低维流形,对提出的融合表达降维处理,得到类间分割、类内保持的低维判别特征,依据此数据分布,选用片近邻分类方法预测序列的亚核位置;最后该方法在两种标准数据集上进行多种对比实验均取得较高的预测精度。该方法充分利用传统序列表达包含信息的互补性,并考虑序列表达的数据分布与分类模型的.关联性,使得该方法在整体预测精度上有较大的提高。但是该方法忽略了不同亚一核位置蛋白质的差异性,为此提出了本文研究的另创新点。提出基于富效的
6、融合表达和线性判别分析的蛋白质亚核定位方法。该方法依据不同将征表达包含的序列信息不同,进而对亚核定位的贡献程度不同,L义及不同亚核位置上的蛋白质的功能不同的性质,通过精细化各亚核位置上蛋白质的这I云南大学)(计算机应用技术硕古学位论文些差异性,提出对不同亚核位置上的特征数据进行不同程度的融合处理,构建出包含高效判别信息的两种高维融合表达;其中,利用遗传算法求取融合表达的各亚核位置上的特征融合系数。由于得到的融合表达的维度髙且融合表达包含的信息有冗余,为此,利用线性判别分析降维处理所提出的融合表达,选出亚核定位预测精度最高时的数据维度,同时开发出本章
7、的蛋白质亚核定位分类器。在两种标准数据集上运行大量实验,结果表明提出的方法具有较高的预测精度,且分类器的性能也较高。关键词:蛋白质亚核定位;融合表达;降维;有监督局部保持投影;线性判别分析IIAbstractAbstractWiththecompletionofhumangenomesequencing,highthroughputsequencingtechnologyhas
此文档下载收益归作者所有