欢迎来到天天文库
浏览记录
ID:34917698
大小:2.59 MB
页数:113页
时间:2019-03-14
《蛋白质结构类与亚细胞定位预测中的特征提取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学学学校校校代代代码码码10701学学学号号号1307110264分分分类类类号号号O129密密密级级级公公公开开开西西西安安安电电电子子子科科科技技技大大大学学学博博博士士士学学学位位位论论论文文文蛋蛋蛋白白白质质质结结结构构构类类类与与与亚亚亚细细细胞胞胞定定定位位位预预预测测测中中中的的的特特特征征征提提提取取取方方方法法法研研研究究究作作作者者者姓姓姓名名名:::梁芸芸一一一级级级学学学科科科:::数学二二二级级级学学学科科科:::应用数学学学学位位位类类类别别别:::理学博士指指指导导导教教
2、教师师师姓姓姓名名名、、、职职职称称称:::刘三阳教授学学学院院院:::数学与统计学院提提提交交交日日日期期期:::2016年11月ResearchonFeaturesExtractionMethodsforPredictionofProteinStructuralClassesandSubcellularLocalizationAThesissubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofDoc
3、torofPhilosophyinAppliedmathematicsByLiangYunyunSupervisor:LiuSanyangTitle:ProfessorNovember2016摘要摘要蛋白质结构类与蛋白质亚细胞定位预测在蛋白质结构和功能的预测中扮演着至关重要的角色,不仅是21世纪生物信息学研究中的两大核心内容,而且是后基因组时代蛋白质组学研究中两个典型的模式识别问题.本文在支持向量机理论的基础上构建了多分类预测模型和一套完整的预测性能评估体系.主要针对蛋白质结构类和凋亡蛋白亚细胞定位预
4、测问题分别提出了两个更加有效的特征提取方法,并使用支持向量机进行分类预测.主要贡献概括如下:1.研究了低相似性蛋白质结构类预测问题,基于代表进化信息的位置特异性打分矩阵(PSSM)提出了一个融合了全局和局部特征的特征提取方法.全局特征来自于PSSM中提取出的一条一致序列,该序列中每个位置的氨基酸种类是由PSSM的每行中得分最高所对应的氨基酸种类组成.全局特征包括两部分:基于一致序列的氨基酸组分特征和新提出的组分矩特征.局部特征来自于平均分段的PSSM,也包括两部分:全部分段中的伪PSSM特征和自协方差
5、特征.为了降低特征中的冗余给支持向量机预测性能带来的影响,我们使用主成分分析法对特征进行了降维.该方法是一个仅仅依靠进化信息来提取特征进行蛋白质低相似性数据集结构类预测的新方法.实验结果表明该特征提取方法不仅进一步地提高了预测精度,而且对于基于PSSM的其它预测方法也是一个重要的补充.2.针对两个大样本低相似性蛋白质数据集的结构类预测问题,基于被预测的二级结构序列(PSSS)和PSSM提出了一个多信息融合的特征提取方法.在基于PSSS的特征中,我们在已有典型特征的基础上提出了简化的二级结构序列中2-词
6、EH和HE的频率,以及计算出了二级结构序列正规化的LZ复杂度.在基于PSSM的特征中,我们通过自互相关函数计算出了3600个高维正特征,为了减少冗余和计算复杂度,提出了使用非负矩阵分解算法进行特征变换,以达到降维的目的.实验结果验证了该方法明显地提高了蛋白质结构类的预测精度,尤其在改善+类的预测精度方面做出了积极的贡献.3.研究了凋亡蛋白亚细胞定位预测问题,提出了一个基于PSSM上非重叠窗口的去趋势互相关系数的统计特征提取方法.去趋势互相关系数是一个量化两条非平稳时间序列之间互相关水平的方法,而通过凋
7、亡蛋白序列生成的PSSM中任意两列可以被看作是非平稳的时间序列.我们通过分析和讨论拟合多项式阶数和最优非重叠平均窗口长度s的选择问题,计算出PSSM中任意两列的去趋势互相关系数作为特征来进行亚细胞定位预测.实验结果显示了该方法是新统计方法在模式识别问题中第一次重要而成功的应用.I西安电子科技大学博士学位论文4.针对凋亡蛋白亚细胞定位预测问题,提出了一个基于PSSM上多重统计信息融合的特征提取方法.我们通过研究Geary相关因子中参数lag和去趋势互相关系数中重叠平均窗口长度s+1的选择问题,融合了基于
8、PSSM上的Geary自相关序列顺序信息和重叠窗口的去趋势互相关系数信息作为特征来进行亚细胞定位预测.基于三个基准数据集的实验结果表明该方法不仅提高了凋亡蛋白亚细胞定位的预测精度,而且是一个更加综合和有效的统计特征提取方法.关关关键键键词词词:::蛋白质结构类,蛋白质亚细胞定位,支持向量机,特征提取,位置特异性打分矩阵,被预测的二级结构序列,自互相关函数,去趋势互相关系数IIABSTRACTABSTRACTPredictionofproteinstruc
此文档下载收益归作者所有