基于 LibSVM 的 CKSAAP 蛋白特征提取预测水稻蛋白质磷酸化位点.pdf

基于 LibSVM 的 CKSAAP 蛋白特征提取预测水稻蛋白质磷酸化位点.pdf

ID:53575434

大小:152.46 KB

页数:2页

时间:2020-04-19

基于 LibSVM 的 CKSAAP 蛋白特征提取预测水稻蛋白质磷酸化位点.pdf_第1页
基于 LibSVM 的 CKSAAP 蛋白特征提取预测水稻蛋白质磷酸化位点.pdf_第2页
资源描述:

《基于 LibSVM 的 CKSAAP 蛋白特征提取预测水稻蛋白质磷酸化位点.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第34卷第7期湖北科技学院学报Vo1.34.No.72014年7月JournalofHubeiUniversityofScienceandTechnologyJu1.2014文章编号:2095—4654(2014)07—0009—02基于LibSVM的CKSAAP蛋白特征提取预测水稻蛋白质磷酸化位点王伟,何华勤(福建农林大学,福建福州350002)摘要:本文从swiss—prot中选取经过试验验证的水稻蛋白质磷酸化位点数据作为训练集合,应用蛋白质序列特征提取方法Compositionofk—spacedresiduespairs(CKSAAP),为利用SVM算法构建专门

2、针对水稻蛋白质磷酸化位点的预测工具做准备。CKSAAP方法利用在序列片断中残基的K个间隔距离的组成,进一步反映了残基之间的相关性。本文利用LibSVM软件包对已通过改进过得CKSAAP方法特征提取出来的数值特征对磷酸化位点进行预测,从而为之后构建水稻蛋白质磷酸化位点的预测工具做准备。结果表明,本文基于SVM和CKSAAP方法的水稻蛋白质磷酸化住点预测在丝氨酸,苏氨酸和酪氨酸的平均预测准确性为80.638%,马修斯系数为0.6ll。与PlantPhos和Musite的预测性能的对比结果显示,在磷酸化各氨基酸位点的预测性能高于PlantPhos及Musite。关键词:SVM

3、;LibSVM;CKSAAP;磷酸化位点预测;K一间隔残基中图分类号:Q942文献标识码:A引言示,特征向量的维数用i来表示。对应K的取值各不相同,由于蛋白质领域研究的日益进步以及基因测序、编码那么i也会相应变化。在特征值的转换过程中,把每条序技术的普及,各大数据库中已经大量收集了各种蛋白质的列的Vi值分别算出,即在序列中每个残基对的总数。氨基酸序列。因为蛋白质组学研究的重要领域是蛋白质功特征向量被定义为:能,因此研究蛋白质序列已经成为生物信息学中不可或缺Ai=Vi-MinVi(2)的部分“。Vapnik和Co~es于1995年首先提出支持向量机(全名Suppo~Vec

4、torMachine)这一概念,它的基本原其中,Ai表示特征值,MaxVi为序列中Vi的最大值,理是在线性可分的基础上,通过自身的算法将线性可分变MinVi为序列中Ⅵ的最小值。为线性不可分。通过此转变我们可以在非线性函数中进二、模型的建立与评估行使用和计算,这种分类算法被称为支持向量机,即SVM。根据上述CKLAP算法原理,我们利用Python编程环将支持向量机算法应用到水稻蛋白质磷酸化位点的预测当境,将从swiss—prot下载下来进行整理的序列转换成中去,是现在研究水稻蛋白质磷酸化的一个重要方向。Libsvm可以识别的格式。构建完数据集合之后,我们选取~部分数据来进

5、行训练。对于要进行预测的数据,我们分别、基于氨基酸组成的特征提取算法将一条蛋白质表示为S=RR,R3⋯R,其中R表从总数据集合的数据中随机抽取十次正负样本,选取的正示蛋白质序列中i个位置上的氨基酸,L表示的是蛋白质负样本比例为1:1。序列的长度;20种氨基酸用单字母表示如下:在利用IibSVM进行预测之前,使用交叉验证对所提取AA={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,的特征值进行评估和测试,得到不同的Cost值和Gamma值W,Y}后,从中选取模型所需的最优参数。通过比对我们选取rbfCKSAAP的定义如下:核类型和C—SVC类型来

6、创建模型。SVM中模型是通过正1L—K负样本集来构建的,并且正负样本比例为1:1。对于易为Xk

7、’jIt--Hi'j(n,n+K)(1)磷酸化的s(丝氨酸)、T(苏氨酸)和Y(酪氨酸)的子集,分其中i和j各自表示二十种各不相同的氨基酸;若序别从相应总训练集的正负位点数据中随机抽取十次正负样列中n位置上为氨基酸,并且位置n+K同为氨基酸j时,本。HI.i(n,n+K)=1;否则为零。序列片断中残基对的K个问分别对每个序列子集的1O个SVM模型进行交叉验隔的组成情况通过该编码来表示,同时展示了序列或者序证,通过对结果的比对和分析分别从中选取交叉验证性能列片断间残基的小范围互

8、作-4J。最高的模型作为SVM的子模型。通过libsvm中的d.PY而序列片段中K个间隔的残基对个数我们用Vi来表进行参数优选得出最优参数训练出最终模型。再通过此模收稿日期:2014一。吕一1810湖北科技学院学报第34卷型,应用svmpredict进行预测。预测结果:表1预测结果对比表参数优选中的最佳准确率accuracy=80.2218%,而实际中预测的准确率为80.638%。三、不同预测方法的性能比较磷酸化位点预测工具有很多,本文应用自己构建的测试数据集来对本文工具与PlantPhos和Musite的预测性能进行对比。我们将本文的预

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。