基于集成分类器的凋谢蛋白亚细胞定位预测方法

基于集成分类器的凋谢蛋白亚细胞定位预测方法

ID:34049075

大小:301.60 KB

页数:4页

时间:2019-03-03

基于集成分类器的凋谢蛋白亚细胞定位预测方法_第1页
基于集成分类器的凋谢蛋白亚细胞定位预测方法_第2页
基于集成分类器的凋谢蛋白亚细胞定位预测方法_第3页
基于集成分类器的凋谢蛋白亚细胞定位预测方法_第4页
资源描述:

《基于集成分类器的凋谢蛋白亚细胞定位预测方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第27卷第5期计算机与应用化学Vo1.27,No.52010年5月28日ComputersandAppliedChemistryMay,2010基于集成分类器的凋谢蛋白亚细胞定位预测方法李爱明,魏蓉(河北理工大学理学院,河北,唐山,063009)摘要:凋谢蛋白亚细胞定位预测是研究凋谢蛋白生物功能的1种重要的方法,也是生物信息学研究的重要领域之一。提高凋谢蛋白亚细胞定位预测模型准确性和实用性是该研究的重点。在本研究中,提出了以模糊近邻分类算法作为基础分类器的集成分类算法。以蛋白质序列内不同间隔的二肽组成表示基本的蛋白质序列的特征集合,采用

2、二进制粒子群算法作为特征选择方法提取能够有效的蛋白质序列特征。这些经过特征选择后的蛋白质序列特征作为集成分类算法中每一个基础分类器的输入向量。经过在2个常用的数据集上使用Jackknife测试,本文算法在CL317数据集上取得了91.5%的预测准确率,在ZW225数据集上取得了88.O%的准确率。与前人报道的算法预测结果比较,本文方法取得了较好的准确率。与使用相同数据集的已经报道凋谢蛋白亚细胞定位预测算法相比,本研究方法取得了预测准确率。关键词:凋谢蛋白;亚细胞定位预测;二进制粒子群算法;特征选择中图分类号:TP301文献标识码:A文章

3、编号:1001-4160(2010)05-645-6481引言2材料和方法细胞凋亡是1种基本生物学现象,其作用是去除不需要2.1测试数据集的或异常的细胞。它在生物体的发育、内环境的稳定以及多用2个标准的数据集来测试本算法的性能。第1个数个系统的发育中起着重要的作用。凋亡不仅是1种特殊的据集是Zhang等构造的ZW225数据集,第2个是Chen和细胞死亡类型,而且具有重要的生物学意义及复杂的分子生L构建的CL317数据集。2个数据集中,每一类亚细胞定物学机制。细胞凋亡的失灵或者不该死亡的细胞死亡,容易位中包含的具体的蛋白质序列数量列见表1

4、。造成一些致命的疾病:如癌症,免疫系统疾病和神经系统疾2.2预测方法病I2J。多个研究证明蛋白质的功能与其所处的亚细胞具研究蛋白质预测中,如何阐述白质序列的特征是其重要有紧密的关系,因此研究凋亡蛋白的亚细胞定位具有很重要的研究内容。已经有多种方法被报道,这些方法中有原始的的意义。AAC(20一D),Chou原创的PseAA组成(20+)-D,二肽组成研究和开发使用计算机来预测凋亡蛋白亚细胞定位的(400.D),多肽组成等。近年来,报道了一些基于特征选择算法和模型成为目前研究的1个重要方向。Zhou和Doc—的方法,从多种候选特征中使用特

5、征选择的方法抽取有用的tor。提出协方差判别式函数方法,Bulashevska和Eils提特征组成表示成为研究的重点。Chen等使用有不同间隔的出集成的贝叶思分类器方法。张振慧等提出成组权重支持氨基酸对组成概念预测了蛋白质的结晶状态。受这些工向量机的方法J,而且构造了1个更大的数据集,包含225作的启发,使用Wrapper的特征选择法从不同间隔的氨基酸个序列,分为4个亚细胞定位。李前忠等开发了ID。。和TD—对组成中选择合适的特征。选择FKNN作为特征选择的训SVM2种方法,使用r增量差异的方法表示蛋白质序列的练分类算法,不同问隔的氨基

6、酸对组成分别训练,选择其中特征。合适的特征组合。这里共选择了5种不同间隔的氨基酸对与蛋白质亚细胞定位研究相比较,凋谢蛋白亚细胞定位组成(P=4),等于5个FKNN分类器。当它们得到有效的特的研究显然不多。主要原因是凋谢蛋白在细胞中的分布灵征组成后,将这5个FKNN分类器集成。通过融合输出的方活,而且目前已经注释的凋谢蛋白序列还不多。本文提出了式来决定最终的结果。1种基于特征选择和集成分类器的方法,预测凋谢蛋白质亚蛋白质序列是由2O种氨基酸组成的,表示为A,C,D,细胞定位。在2个常用的数据集上测试。取得比目前已知E,F,G,H,I,K,

7、L,M,N,P,Q,R,S,T,V,W,Y。可的预测凋谢蛋白亚细胞定位算法都高的预测准确率。能有400个二肽氨基酸对(AA,AC,AD,⋯⋯,YY)。1个收稿日期:2009_o7_21;修回日期:2009—11—12作者简介:李爱明(1959一),女,河北唐山人,本科,计算机应用;魏蓉(1979一),女,河北邢台人,本科,工商管理,E-mail:cattyrong@163.tom.计算机与应用化学2010,27(5)二肽在序列中发生的频率为,=ni/(L一1),n是i—th氨基根据粒子速度来更新粒子的位置:酸对在序列中出现的次数,三是序

8、列的长度。因为序列内不fR(O,1)>0.7if<2a/3但相邻的氨基酸之间有相互作用,而且相距一定距离的氨基譬,:2们。(3)j酸之间也会发生相互作用。因此我们选择2个氨基酸之间Ipbest(id)ifo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。