基于主动学习的非实验蛋白数据挖掘方法研究

基于主动学习的非实验蛋白数据挖掘方法研究

ID:77829013

大小:5.31 MB

页数:58页

时间:2022-01-28

基于主动学习的非实验蛋白数据挖掘方法研究_第1页
基于主动学习的非实验蛋白数据挖掘方法研究_第2页
基于主动学习的非实验蛋白数据挖掘方法研究_第3页
基于主动学习的非实验蛋白数据挖掘方法研究_第4页
基于主动学习的非实验蛋白数据挖掘方法研究_第5页
基于主动学习的非实验蛋白数据挖掘方法研究_第6页
基于主动学习的非实验蛋白数据挖掘方法研究_第7页
基于主动学习的非实验蛋白数据挖掘方法研究_第8页
基于主动学习的非实验蛋白数据挖掘方法研究_第9页
基于主动学习的非实验蛋白数据挖掘方法研究_第10页
资源描述:

《基于主动学习的非实验蛋白数据挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、犬裡大莩颀士莩位文基于主动学习的非实验蛋白数据挖掘方法研究学科专业——里生圼作者姓名指导教师答辩日期――年月曰硕士学位论文基于主动学习的非实验蛋白数据挖掘方法研究作者姓名学科、专业控制理论与控制工程学号指导教师顾宏教授完成日期——大理工大嗲大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的

2、同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:其孑主切例寒妓尽免似声枚撒多沒巧作者签名:曰期:年〈月曰大连理工大学硕士学位论文摘要蛋白质的功能与其亚细胞定位密切相关,针对蛋白亚细胞定位预测中实验数据缺乏的问题,利用主动学习方法,提出一种从非实验蛋白质数据中主动挑选样本的方法。该方法基于一个可以衡量样本有用性的评估函数,利用该函数估计出每个样本对于分类预测的价值从而主动挑选出最具价值的样本。以蛋白质数据库为基础,按照蛋白质条目信

3、息对蛋白质进行蹄选,然后用对蛋白质序列进行处理,把得到的蛋白质序列进行特征提取,构建革兰氏阳性菌、革兰氏阴性菌和植物数据集。把主动学习方法引入蛋白亚细胞定位预测问题中,基于损失函数和标签概率,构建非实验标记样本挑选算法。利用三个分类器在三个数据集上进行实验,按照挑选出来的顺序把非实验样本逐渐加入到原始训练集中重新训练当前分类器并用测试集测试分类器的性能。实验结果一方面表明取得的最好预测结果均比未加非实验样本和加入所有非实验样本时高,这说明该算法可以选择合适数量的非实验样本从而提高预测效果;另一方

4、面表明训练数据缺乏问题比较严重时,预测效果提高的也越多,这说明非实验样本对于提高分类器性能的重要性。因此基于主动学习的非实验蛋白数据挑选算法能够有效实现最具价值样本的挑选,可以有效地解决蛋白亚细胞定位预测中实验数据缺乏的问题。关键词:主动学习;亚细胞定位预测;分类器;非实验数据;数据挖掘基于主动学的非实验蛋数据挖掘方法研究“”:大连理工大学硕士学位论文目录躲研究背景及意义亚细胞结构简介蛋白亚细胞定位预测简介研究现状主要问题及研究目标论文研究内容和安排主要研究内容论文结构机器学习中的主要分类算法近

5、邻近邻分类原理■近邻特点支持向量机线性判别函数与超平面最优分类面非线性支持向量机特点高斯过程模型高斯过程分类模型支持向量机与高斯过程模型比较高斯过程模型的特点多值分类本章小结蛋白质亚细胞定位预测数据集的构建数据库简介蛋白质序列的条目信息数据的筛选和特征提取基于主动学」的非实验蛋数据挖掘方法研究数据的筛选数据的特征提取本章小结非实验标记样本主动挑选算法的设汁主动学习技术半监督主动学习方法半监督分类方法的基本假设几种已有算法的半监督学习框架半监督主动学习算法非实验样本主动挑选算法算法设计评价矩阵本克

6、小结蛋白亚细胞定位预测实验实验参数及实验环境各数据集的预测结果分析分类器性能的比较非实验样本对分类器性能的影响三个数据染的预测结果比较本荩小结参考文献攻读硕士学位期间发表学术论文怙况大连理工大学学位论文版权使授权书—大连理工大学硕士学位论文绪论研究背景及意义近年来,随着计算机科学的快速发展和蛋白质序列数据的不断产生,一门新兴学科,生物信息学⑴应运而生。生物信息学是研究生物信息的采集,处理,存储和解释等各方面的一门学科,在生命科学的研究中,它以计算机为工具对生物信息进行储存、检索和分析,是当今生命

7、科学的重大前沿领域之一,它综合了生物学,计算机科学和信息科学等重要学科,揭示了大量而复杂的生物数据的生物学意义。基因组学和蛋白质组学是生物信息学研究的两个重要方面,目的是分析序列中表达的结构功能的生物信息。蛋白质的功能与其亚细胞定位密切相关。准确地预测亚细胞位置能够使蛋白质正常表达其功能,对生命科学研究有非常重大的意义。本文围绕亚细胞定位预测这一主题,以提高预测效果为目标,研究亚细胞定位预测中非实验数据挖掘的问题。亚细胞结构简介细胞是生物体结构和功能的基本单位。生物按其结构分为三种类型,一是由真

8、核细胞构成的真核生物;二是由原核细胞构成的原核生物;三是没有细胞结构的病毒。以真核生物为例给出细胞结构图,真核生物的细胞结构如图所示。细胞复杂而协调的环境为各种生命活动提供了一个良好有序的空间,使生命活动得到很好的控制和调节。对本文研究的主要亚细胞位置的功能简述如下::细胞壁,位于植物细胞的最外层,是一层透明的薄壁,主要是由纤维素和果胶组成的,孔隙较大,物质分子可以自由透过。对细胞起着支持和保护的作用;:细胞膜,主要由蛋白质分子和脂类分子构成。细胞膜具有一定的流动性,这种特点对于它完成各种生理功

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。