欢迎来到天天文库
浏览记录
ID:49973439
大小:5.77 MB
页数:61页
时间:2020-03-03
《蛋白质亚细胞定位中的非线性核熵成分分析和核主成分分析方法对比研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TP391.4密级公开UDC编号《分A掌硕女研《i#化化A题目蛋白质亚细胞定位中的化线性捻痛成分分析巧巧主成分分巧方法巧比研巧T-itleComparativeResearchonNonlinearKernelEntropyComponentAnalysisandKernelPrincipalComponent乂nalvsisinProteinSubcellularLocaliza村on学院(所、中也)信息学院专业名称计算化巧术研巧生姓名
2、給东曝学号12014002417导师姓名王顺劳职称教授2016年3月论文独创性声明及使用授权本论文是作者在导师指导下取得的研巧成果。除了文中特别加W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,不存在割窃或抄袭行为。与作者一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。现就论文的使用对云南大学授权如下:学校有权保留本论文(含电子版),也可W采用影印、缩印或其他复制手段保存论文,;学校有权公布论文的全部或部分内容可!^将论文用于查阅或借阅服务;学校有权向有关
3、机构送交学位论文用于学术规范审查、社会监督或评奖;学校有权将学位论文的全部或部分内容录入有关数据库用于检索服务。(内部或保密的论文在解密后应遵循此规定)文〇.今乂条<-研巧生签名:?导师签名:日期:(巧_楠要巧要。近年来,,随着高通量生物技术的不断应用由此产生了大量的蛋白质序列信息一直都是通过生物实验来进行但为其进行注释。通过计算机来大量处理生物数据,并提供指导信息将极大的加速这个过程特别是蛋白质亚细胞位置信息,其与蛋白质功能密切相关。本文采用当前较为流行的模式识别方法来进行人类蛋白质亚
4、细胞定位预测。为了较好的描述蛋白质序列信息,本文采用较为全面的伪氨酸组成位置特异性分数矩阵eAAPSSM),但特征数据维数较髙并(Ps来提取人类蛋白质序列特征信息富含冗余和噪音。为了提升数据的相关性,降低数据兀余,本文创新性地在此领域引入非线性降维算法核贿成分分析(KECA),并与经典的核主成分分析来进行对比研究。核煽成分分析通过计算由特征值和特征向量共同表出的信息贿来判断每个投影方向的贡献。而核主成分分析(KPCA)只通过特征值的大小来衡量每种成分的贡献,,忽视了投影中特征向量的作用。在对特征数据进行降维之后本文
5、-分别用经典的传统分类器KNN和多标签分类器OVRKNN来进行预测。经过Jackknife验证之后,通过KNN预测的基于高斯核KECA的分类算法大部分亚细胞位置的预测当中要优于基于高斯核KPCA的分类算法,但是在某些亚细胞位置,特-、体KNN别是中屯,其预测准确率较低甚至为零。而通过多标签分类器OVR,在较大范围的核参数变化中发现基于高斯核KECA的分类算法要优于基于离斯核KPCA的分类算法。一一为了更进步研巧KECA中核的影响,本文对KECA中组合核函数进行了定研究,。由于通过高斯核映射将主要保留局部信息通过
6、多项式核映射将主要保留全局信息,本文通过将两种核函数进复合并进行多标签设置下的人体蛋白质亚细胞。定位实验发现,复合核函数在保留数据特征信息方面要优于单核核函数关键词:蛋白质亚细胞定位;核滴成分分析法;核主成分分析法;复合核函数;多标签分类IAbstractAbstractthtt-ttWithedevelopmenandapplicaio打ofhighhroughoutbioechnologyinrecentyearstheincreasinroteinseuenceshave
7、beenexloredandstillannotatedb,gpqpybiologicalexperiments.Accordingly,itmayprobablyacceleratetheannotationprocessinmassivebiologicaldatabycomuterseseciallthesubcellularlocationgp,pyclo化lycorrelated化:ftmction*Thisaererformsaprevalentmethoda
8、ternppp,preconition^redictsubcdluarlocationsofhumanroteins.g^ppToreresent
此文档下载收益归作者所有