欢迎来到天天文库
浏览记录
ID:32968676
大小:10.81 MB
页数:63页
时间:2019-02-18
《基因表达数据聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10270学号:102201104上谚脚范大誊硕士学位论文论文题目基因表达数据聚类算法研究学院信息与机电学院专业计算机软件与理论研究方向图像处理与模式识别研究生姓名汪雪红指导教师黄继风完成日期2013年3月TheResearchOnClusteringAlgorithmAppliedToGeeEx]DataoresslonataADissertationSubmittedfortheDegreeofMasterCandidate:XuehongWangSupervisor:JifengHuangCollegeofinfo
2、rmation,mechanicalandelectricalengineeringShanghaiNormalUniversity,Shanghai,ChinaMarch2013上海师范大学硕士论文基因表达数据聚类算法研究摘要目前,大量基因表达数据由基因芯片实验产生,其中蕴含着丰富的能解释生命现象规律的信息,对这些基因表达数据分析对于理解遗传信息怎么变为功能基因产物非常有用。聚类算法作为一种广泛使用的重要分析方法,用于发现这些基因表达数据背后隐藏的生物信息。聚类算法基本原理是根据相似性度量将多元变量分为多个类。传统的基因聚类算法
3、是分别对基因或条件进行聚类,也称单路聚类。这种聚类算法对基因聚类时是以全部条件作为特征来计算基因间的相似性,因此得到的结果只能包含全局信息。但是像基因这种高维数据含有大量的局部信息,为了捕获到基因表达数据中存在的局部信息,近年来出现一种能同时对基因和条件进行聚类的双聚类算法。尽管目前对双聚类算法有很多的研究,但是现有的许多双聚类算法在识别数据中含有的不同相关性类型的双聚簇(在条件子集下相关的基因子集)以及捕获数据矩阵中重叠层次结构的双聚簇方面存在限制。本文对几种常用的单、双聚类算法进行对比、分析的基础上,提出一种结合单聚类算法的双
4、聚类方法。用本文算法和一些常用的双聚类算法对几种基因表达数据进行聚类分析,实验结果表明本文算在各项指标上都有较好的性能,与常用的几种双聚类算法相比,能够挖掘出更多更高生物学价值的基因。本文主要创新点包括以下几个方面:(1)通过有损数据编码和压缩原理对基因进行聚类,此算法根据聚类后使基因的总体编码长度最小原则对基因进行聚类。该算法的最大优点是可以自动确定聚类数。(2)在分析双聚类领域当前常用的几种重要算法优缺点的基础上提出一种结合有损数据压缩的基因表达数据双聚类算法。该算法用一种新的基于排序的目标函数,通过优化目标函数可以发现数据矩
5、阵中任意位置的大体积高相关的重叠层次结构双聚簇,并且同一个双聚簇中可以同时存在正负相关的基因。关键词:基因表达数据聚类分析双聚类有损数据压缩正负相关论文类型:应用研究上海师范大学硕士论文AbstractThousandsofgeneexpressiondatacanbeproducedfromexperimentofgenechipsrecently,whichcontainstherichinformationthatCanexplainthephenomenonoflife,Byanalysisingthisgeneexpre
6、ssiondatawecanunderstandthegeneticinformationhowtoconveIrtedtoafunctionalgeneproduct.Clusteringalgorithmasakindofimportantanalysismethodiswidelyusedtodetectthebiologicalinformationofgeneexpressiondata.Thebasicprincipleofclusteringalgorithmistodividemultiplevariablesin
7、tomultipleclassesaccordingtothesimilaritymeasure.Theconventionalclusteringalgorithmclustergenesorconditionsrespectively.Theconventionalclusteringalgorithmisbasedontheassumptionthatrelatedgenesbehavesimilarityunderalltheconditions,whichcanonlycaptureglobalinformationof
8、thegeneexpressiondata.BecausealotoflocalpatternsareexiStedinthehigh—dimensiongeneexpressiondata,coclusteringalgorithmhasbeen
此文档下载收益归作者所有