欢迎来到天天文库
浏览记录
ID:53028866
大小:497.09 KB
页数:8页
时间:2020-04-14
《基于氨基酸约化和统计特征的蛋白质亚细胞定位预测-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第13卷第2期生物信息学V01.13NO.220l5年6月ChineseJournalofBioinformaticsJun.,2015doi:10.3969/j.issn.1672—5565.2015.02.05基于氨基酸约化和统计特征的蛋白质亚细胞定位预测杨红,徐慧敏,严寿江,陈静,耿丽丽,姚玉华(1.青岛滨海学院,青岛266555;2.浙江理工大学生命科学学院,杭州310018)摘要:蛋白质亚细胞定位预测对蛋白质的功能、相互作用及调控机制的研究具有重要意义。本文基于物化性质和结构性质对氨基酸的约化.描述序列局部和全局信
2、息的“组成”、“转换”和“分布”特征,并利用氨基酸亲疏水性的数值统计特征,提出了一种新的蛋白质特征表示方法(NSBH)。分别使用三种分类器KNN、SVM及BP神经网络进行蛋白质亚细胞定位预测,比较了几种方法和特征融合方法的预测结果,显示融合特征表示及结合SVM分类器时能够达到更好的预测准确率。同时,还详细讨论了不同参数对实验结果的影响。具体的实验及比较结果显示了该方法的有效性。关键词:蛋白质亚细胞定位;氨基酸物化性质;支持向量机中图分类号:Q811文献标志码:A文章编号:1672-5565(2015)-02-103-08Pr
3、oteinsubcellularlocalizationpredictionbasedonreducedrepresentationofaminoacidandstatisticalcharacteristicYANGHong,XUHuimin,YANShoujiang,CHENJing,GENGLili,YAOYuhua(1.QingdaoBinhaiUniversity,Qingdao266555,China;2.CollegeofLifeSciences,ZhejiangSci—TechUniversity,Hangz
4、hou310018,China)Abstract:Theproteinsubcellularlocalizationpredictionisimportanttostudytheproteinfunction,proteininteractionandtheirregulationmechanism.Inthispaper,basedonfouraminoacidsphysicochemicalprope~iesandstructuralproperties,Wedescribethelocalandglobalinform
5、ationofsequenceby‘component’,‘transition’and‘distribution’.Usingthenumericalstatisticalcharacteristicofhydrophobic/hydrophilicaminoacid,weproposedanewproteinfeaturerepresentation.Wecomparethepredictionresultsbetweentheproposedmethodsandfusionmethodwiththeclassifica
6、tionalgorithmKNN,SVMandBP.TheresultsshowthatfusionmethodwithSVMcangetbetterpredictionaccuracies.Meantime,wealsodiscusstheeffectsofdifferentparametersontheexperimentalresults.Thedetailedexperimentalandcomparisonresultsshowtheeffectivenessoftheproposedmethod.Keywords
7、:Subcellularlocalization;Physicochemicalproperties;Supportvectormachine(SVM)蛋白质是生命的物质基础,是构成细胞的基本3939条1]。采用实验方法确定蛋白质的亚细胞定有机物,是生命活动的主要承担者。然而,蛋白质只位需要耗费大量的人力、物力、财力。已经无法满足有在特定的亚细胞位置中才能行使其特定的功能。数据库中蛋白质序列爆炸性增长的现实需要。从已随着高通量技术的发展,很大数量的蛋白质序列正积累的知识和数据出发,开发蛋白质亚细胞定位预日益增长并被整理和存人
8、到公共的生物数据库。根测的计算机方法就成为了当前的重要研究任务。据2014年2月发布的统计表明。UniProtKB/Swiss—在使用计算方法来确定蛋白质亚细胞位置的研Prot包含542258条序列。然而在1986年仅仅是究方面。人们已经做出了很多的尝试l2].近年来这收稿日期:2015-
此文档下载收益归作者所有