欢迎来到天天文库
浏览记录
ID:50158921
大小:4.55 MB
页数:55页
时间:2020-03-08
《基因表达数据的并行聚类及其集成分类研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、'?乂连键^2大爹DALIVERSITYOFTECHNOLOGYIANUN损±享恆巧文MASTE民ALDISSERTATION錢基因表达数据的并行聚类及其集成分类研究计算机应用技术学科专业___作者姓名孟军副教授指导孰师-S2016年6月6曰H答辩日硕:t学位论文基因表达数据的并行聚类及其集成分类研究ResearchofParallelClusteringandEnsembleClassificationfo
2、rGeneExpressionData作者姓名:李锐学科、专业:计算机应用技术11学号:213096指导教师:孟军1完成日期:206.4.28乂连巧义乂缘DailianUnversityofTechnology大连理王大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中己经注明引用内容和致谢的地方外,本论文不包含其他个人或集体己经发表的研究成果,化不包含其他已申请
3、一学位或其他用途使用过的成果。与我同工作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:基因表这数据的并行聚类及其集成分类研究如^12作者签名:表日期;年6月日大连巧工大学硕±学位论文摘要一生物信息学的研究处在个数据爆炸的时代,近年来在基因组学、代谢组学、转录组和蛋白质组学等领域技术的进步,使得生物学家可W有更多的数据从不同方面对生命体进行分析,这种表达值的变化可W通。基因表达的异常往往
4、意味着非正常的生命活动过微阵列技术レッ基因表达数据的形成呈现出来,可。通过对基因表达数据进行分析用来对人类和动物进行疾病诊断,研究植物生长过程中的异常现象。将不同类型的生物数一一据融合在起用于分析的方法已成为近年来生物信息学领域的种趋势,送种称为生物数据融合的方法可W帮助研究者发现数据之间存在的潜在关联,同时更好地理解某些生物现象的本质。聚类是对基因表达数据进行降维的有效方法,通过对数W万计的基因进行分簇,每个聚簇的基因个数降到了几百甚至几十个,。本文在聚类过程中融合生物知识提高结果
5、的生物学可解释性,。同时针对聚类产生的基因子集之间具有较大差异性的特点使用集成学习的思想构建分类模型,处理基因表达数据的分类问题。基因本体数据库提供了丰富的基因功能注释信息。基于聚类之后基因聚簇生物信息不足的问题,可W使用基因本体知识计算出基因之间的生物功能相似度,并将其与基因表达数据相结合。采用近邻传播聚类算法对融合后的数据进行分簇,得到更加具有生物意义的基因子集,并分析生物知识融合对于结果的影响,。基于聚类结果使用邻域粗趟一集的方法从每簇中选出具有代表性的基因用于训练分类器,
6、并建立更加稳定的集成分类模型。通过在植物胁迫响应基因表达数据集上的实验结果表明了融合基因本体知识的有效性。一简单的基因初选过程可能会损失些潜在的有分类价值的基因,本文使用并行计算技术,实现近邻传播聚类算法的并行化,直接对原始的基因进行聚类。针对聚类之后可能会产生较多基因子集的问题,采用随机爬山搜索算法对训练得到的分类器进行筛选,选出一组合适的分类器用于最终的集成分类。由植物胁迫响应数据集上的实验结果可知该方法可W选择出分类能力更强的基因集合。关键词:知识敲合;集成学习;基因表
7、达数据;并行计算--I基因表达数巧的并行聚类及其集成分类研究*民esearchofPaiallelClusteringandEnsembleClassificationforGeneExressionDatapAbstractTheresearchofbioinformaticsisatadataexplosionera.Recentyears,thetechnicalroressinenomicsmetabo打omicstra打
8、scritomea打droteomicswhichallowsbioloistpgg,,pp,gtohavemoredatatoanalzeora打isminvarousasects.Theabnormalofeneexressionygipgpoftensignifiesa打unusualvitalmovement.Thechangeonex
此文档下载收益归作者所有