基因表达数据分析的聚类算法研究

基因表达数据分析的聚类算法研究

ID:36833819

大小:3.44 MB

页数:81页

时间:2019-05-16

基因表达数据分析的聚类算法研究_第1页
基因表达数据分析的聚类算法研究_第2页
基因表达数据分析的聚类算法研究_第3页
基因表达数据分析的聚类算法研究_第4页
基因表达数据分析的聚类算法研究_第5页
资源描述:

《基因表达数据分析的聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学位论文使用授权声明南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文,按保密的有关规定和程序处理。研究生签名:_阻沙,1,年;月妒日硕士论文基因表达数据分析的聚类算法研究摘要\l㈣6㈣24㈣08Y20基因芯片技术推动了生物信息学的高速发展,一次基因芯片实验可以产生数以万计的基因表达数据,其中蕴含着丰富的能解释生命现象规律的信息,对它们进行研究是现代生命科学的~个重要和基本的问题,聚类分析作为数据挖掘和模式识别领域的常用方法也被广泛应用于基因表达

2、数据的分析。基因表达数据通常以一种高维小样本的矩阵形式出现,传统的聚类方法把矩阵的行(基因)或列(样本)作为处理对象,也叫单路聚类,这种方式只能找到全局信息,而高维数据的特点就是含有大量的局部信息,因此需要能同时对行、列进行处理的聚类方法,双路聚类由此应运而生。本文在对多种单路、双路聚类算法进行对比、分析的基础上,提出一种结合单路聚类和稀疏奇异值分解的双路聚类方法,并对其有效性进行了定性和定量的验证,具体工作和主要结论包括以下几个方面:(1)研究并实现了三种常用的单路聚类方法,在多个真实的基因表达数据集上的实验结果表明,单路聚类算法虽然种类繁多,但没有哪个算法能适用于全部数据,因

3、此可以根据不同数据选择相对合适的算法,这为后文的双路聚类方法的研究奠定基础。(2)研究了四种双路聚类算法,其中重点分析和改进了基于稀疏奇异值分解(SSVD)的双路聚类,原始的SSVD方法虽然已经具备了同时对矩阵的行和列进行处理的能力,但却不能直接获得有效的双路聚类,因此本文提出了结合单路聚类的SSVD方法,该方法能得到比其他双路聚类方法更为理想的结果。(3)研究并实现了前人提出的一种稳定性验证方法,进一步利用基因注释工具统计双路聚类结果中的重要基因信息含量,并结合三种常用的双路聚类评价指标,从算法的稳定性、聚类结果的生物学价值、样本聚类正确性、模型一致性和聚类结果是否高内聚五个方

4、面来评价双路聚类算法,其中,改进的SSVD方法在各项指标上都有较好的性能,与其他算法相比,挖掘出的重要基因更多,具有更高的生物学价值。关键词:基因表达数据,聚类,双路聚类,双路聚类验证硕士论文AbstractThetechnologyofgenechipspromotestherapiddevelopmentofbioinformatics.Thousandsofgeneexpressiondatacallbeproducedfromoneexperimentofgenechips,whichcontainstherichinformationthatCallexplainthe

5、phenomenonoflife.Thestudyofgeneexpressiondatahasbecomeallimportantandbasicproblemofthemodemlifescience.Asapopularmethodinthefieldofdataminingandpaaemrecognition,clusteringanalysisisalsowidelyusedingeneexpressiondata.Geneexpressiondatausuallyappearsinamatrixformwhichishighdimensionlowsamplesiz

6、e.Thetraditionalclusteringmethodsdeal、Ⅳithonedimension,therows(genes)orthecolumns(samples)ofthematrixatatime,thiswayonlyfindstheglobalinformation,whilethecharacteristicofthehighdimensionaldataiscontainingalotoflocalinformationwhichneedstobeclusteredfromthebothdimensionsofthematrixsimultaneous

7、ly.Fortheleasonabove,thebiclusteringWasarised.,nlecontributionsofthisthesisareasfollows:(1)Severalkindsofclusteringalgotithmswereapplied诵tllavarietyofrealgeneexpressiondatasets.Theexperimentalresultsshowthatthereisnoclusteringalgorithmthatiss

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。