欢迎来到天天文库
浏览记录
ID:32468141
大小:4.50 MB
页数:138页
时间:2019-02-06
《基于支持向量机的蛋白质分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要摘要随着人类基因组计划的顺利进展,越来越多的蛋白质序列被测定出来;而通过实验确定其结构与功能的蛋白质序列则相对较少,旦两者之闻的差距有迅速扩大的趋势。由于通过实验确定蛋白质的结构和功能费时、费力、费财,且实验中可能还会遇到一些目前无法解决的困难,因此探索利用理论及计算方法来研究蛋白质结构和功能具有重要意义。本文从蛋白质的一级序列出发,研究了蛋白质的结构、功能分类预测,其主要贡献如下:1.提出一种新的组合分类思想,即将氨基酸组成成分、自相关函数二种特征提取法与支持向量机恰当组合,首次对蛋白质同源二聚体和非同源二聚体进行分类
2、研究,并与国际上现有的Garian方法进行了对比。在10CV检验下,本文方法的分类总精度比Garian方法最大可提高17.1个百分点。2.提出二种新的特征提取法,并引入以前已有的二种特征提取法,与支持向量机和不同的分类策略,进行恰当的组合构成分类系统,首次对蛋白质同源二聚体、同源三聚体、同源四聚体和同源六聚体进行分类研究。结果表明整合了氨基酸残基序列顺序信息的三种特征提取法,其分类能力均好于氨基酸组成成分特征提取法,尤以我们提出的加权自相关函数特征提取法的分类效果最好,其分类总精度可比氨基酸组成成分特征提取法最大可提高6.3
3、9个百分点,比Chou的特征提取法提高2.41个百分点;采用“一对一”策略的分类能力明显优于“一对多”策略,其分类总精度最大可提高1769个百分点。3.一种新的组合分类方法,即将自相关函数特征提取法和支持向量机、以及本文提出的“改进的唯一的一对多”分类策略恰当组合,应用于蛋白质折叠子分类研究。结果显示:对于独立测试样本,自相关函数特征提取法的分类总精度比氨基酸组成成分特征提取法,大约可提高7个百分点;“改进的唯一的一对多”分类策略优于“一对多”策略,其独立测试和5CV检验的分类总精度,比“一对多”策略最大可分别提高约18和1
4、2个百分点。4.引入加权思想,以一种新的特征提取法—加权自相关函数,表示蛋白质序列,并采用“一对多”、“一对一”分类策略对膜蛋白和亚细胞定位进行了分类和预测研究,结果有明显改善:1).对于膜蛋白分类,在采用支持向量机算法及“一对多”分类策略下,加权自相关函数特征提取法的分类总精度为87.98%,比氨基酸组成成分特征提取西北工业大学博上学位论文法提高338个百分点;“一对一”策略的分类总精度可达到94.88%,比“一对多”策略提高6.9个百分点。2).对于亚细胞定位预测,原核蛋白和真核蛋白定位的预测总精度最高分别可达到92.3
5、8%年n95.22%,真核蛋白定位的预测总精度远高于以前Hua的研究结果79.4%。“一对一”策略的真核蛋白预测总精度比“一对多”策略最大可提高12.19个百分点;加权自相关函数特征提取法的真核蛋白预测总精度比氨基酸组成成分特征提取法可提高2.96个百分点。5.最后,本文还对核函数类型及其参数的选取进行了初步探讨。关键词:支持向量机:特征提取;分类策略;加权自相关函数;同源二聚体同源三聚体;同源四聚体;同源六聚体:折叠子:膜蛋白:亚细胞定位。ABSTRACTwiththeSUCCESSofhumangenomeproject
6、,theproteinsequencesenteringintothedatabanksarerapidlyincreasing.Thestructuresandfunctionsoftheseproteinsmaybedeterminedbymeansofexperiments,butitisverytime-consumingandalmostimpossible.Thusthescientistshavebeingsoughtafterthetheoreticalorcomputationalmethodsforpre
7、dictingthestructuresandfunctionsofproteins.Severalmethodsofclassifyingorpredictingproteinstructuresandfunctionsbasedontheproteinprimarysequencesareinvestigatedinthisdissertation.Themaincontributionsaresummarizedasfollows:1.Anewideaofcompositeclassificationisraised,
8、thatisthesupportvectormachine(svM)algorithmiscombinedfelicitouslywithtwofeatureextractionmethodsofaminoacidcompositionandtheauto.correlationfunct
此文档下载收益归作者所有