欢迎来到天天文库
浏览记录
ID:36573768
大小:3.96 MB
页数:151页
时间:2019-05-12
《数据挖掘的建模及在生物信息学中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学博士学位论文数据挖掘的建模及在生物信息学中的应用研究姓名:沈红斌申请学位级别:博士专业:模式识别与智能系统指导教师:杨杰20061101种情况下,生物信息学应运而生。生物信息学是计算机科学与生物科学的交叉学科,成为目前研究的热点。诸多数据挖掘技术,如聚类分析、机器学习等,也成为生物信息研究中的重要内容。文章在分析了前人利用“无监督”模糊C均值聚类算法在预测分析蛋白质结构方面的缺陷的基础上,提出了一种“有监督”的聚类算法用来预测蛋白质结构。实验表明,利用了训练数据类别标号的“有监督”聚类算法的分类精度比“无监督”聚
2、类算法有很大提高。通过这一点表明,在缺乏数据样本类别标号时,“无监督”聚类算法是一种优秀的分析工具,但如果先验知识预先知道训练样本的类别标号,采用“有监督”的学习算法将更加有效。在蛋白组学的研究中,一个重要的课题是如何离散化蛋白序列,从而能为计算机所识别处理。诸多实验表明,伪氨基酸离散模型比传统20.D氨基酸离散模型包含更多的序列顺序信息,因而大大地提高了各类算法在蛋白质属性上的预测分析精度。但如何确定伪氨基酸成分的维数一直是困扰各位研究人员的问题。本文提出了集成分类器框架方案,通过集成多个不同维数的伪氨基酸离散化模型,解决
3、了维数选择问题,大量实验表明在大多数情况下,由于从不同角度抓住问题的核心,集成分类器比任何单一维数的分析精度都要高。随着生命科学、生命数据库的发展,近几年GeneOntology(GO)数据库得到了长足的发展。GO数据库是一综合多种不同数据库的蛋白表达数据库。本文利用GO蛋白的离散模型预测分析蛋白亚细胞位置,由于GO离散模型更能反映蛋白亚细胞位置的特性,因此取得了比其他离散化模型更好的效果。另外,本文所建立的数据集覆盖了目前该领域研究中最多的亚细胞位置,大大扩大了该项研究的实际应用意义。为了更好地使广大生物学家应用本文生物信
4、息学研究的成果,文章建立了多个在线生物信息预测分析网站,经不完全统计,已有来自美国、英国、荷兰、澳大利亚以及中国等世界各地的研Ⅱ——,jf克童声謦堡主兰垡堡奎:究科学家通过互联网访问并使用所建立的在线生物信息服务网站,为科学研究的快速发展提供了强有力的支持。本文的创新性表现在:(1)提出高维核空间属性加权核聚类算法。并从理论上证明了收敛性:(2)讨论了合作聚类模型,该模型在研究实际社会中的关联模型上有重要意义:(3)通过模拟生物人眼非均匀采样的特点,提出一种新颖的视觉聚类算法:(4)提出基于“有监督”聚类算法的蛋白结构预测模
5、型;(5)提出集成分类器框架模型,有效地解决了伪氨基酸蛋白离散模型的维数选择问题;通过在诸多应用对象、算法上的实验表明,该框架是切实可行的;(6)采用新型的GO蛋白离散模型分析预测蛋白亚细胞位置。该文所研究的细胞位置数目是目前该研究领域最多的,进一步加强了该研究的实际应用意义;另外,本文的研究涵盖了多个应用对象,如人类细胞、植物细胞、细菌细胞以及病毒等;(7)为了进一步加速研究成果的转化及应用,建立了多个在线生物服务网站。通过互联网,世界各地的科学家可以在线使用生物信息预测服务。关键词;数据挖掘,聚类分析,生物信息学,机器学
6、习,模糊C均值,信息理论,采样定理,证据理论,集成分类器,蛋白结构预测,膜蛋白识别,细胞网络I'djjiF麦童声事堡主兰垒兰塞RESEARCHESoNDAlAMININGMoDELINGTHEORIESANDITSAPPLICATIONSINBIoINFoRM嗡TICSABST雕忆TInthepastdecades,largeamountofdataisobtainedwiththefastdevelopmentofscience,economicandsociety.Howtofindvaluableknowledgean
7、drulesfromthesedataisacriticalproblem.Dataminingresearchesareproposedtosolvethisproblem,whichcombinesstatistics,database,machinelearningtechniquesere.Clusteringanalysisisoneofthemostimportantresearchareasindatamining.Intherealworld,weoftenhavetodealwiththehi曲-dimen
8、sionaldataset,inwhich,differentattributeswillcontributedifferentlytoeachclusterinmostcases.Consideringsuch-aproblem,akindofattributeweightedfilzz
此文档下载收益归作者所有