面向基因表达数据快速聚类的算法研究

面向基因表达数据快速聚类的算法研究

ID:37045135

大小:1.68 MB

页数:58页

时间:2019-05-15

面向基因表达数据快速聚类的算法研究_第1页
面向基因表达数据快速聚类的算法研究_第2页
面向基因表达数据快速聚类的算法研究_第3页
面向基因表达数据快速聚类的算法研究_第4页
面向基因表达数据快速聚类的算法研究_第5页
资源描述:

《面向基因表达数据快速聚类的算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文面向基因表达数据快速聚类的算法研究ALGORITHMOFFASTCLUSTERINGFORGENEEXPRESSIONDATA刘鸿儒哈尔滨工业大学2018年1月国内图书分类号:TP39学校代码:10213国际图书分类号:004.9密级:公开工程硕士学位论文面向基因表达数据快速聚类的算法研究硕士研究生:刘鸿儒导师:王亚东教授申请学位:工程硕士学科:计算机技术所在单位:深圳研究生院答辩日期:2017年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP39U.D.C:004.9Adissertationsubmittedinpartialfu

2、lfillmentoftherequirementsfortheprofessionaldegreeofMasterofEngineeringALGORITHMOFFASTCLUSTERINGFORGENEEXPRESSIONDATACandidate:LiuHongruSupervisor:Prof.WangYadongAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:Dec.

3、2017Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要作为一种重要的知识发现与数据分析技术,聚类分析已经被成功地应用到了许多领域之中,在生物信息学中也起着举足轻重的作用。聚类分析在分析微阵列数据方面已经成为了一种重要的技术手段。由于人类目前只了解少量基因的功能,而基因表达数据中基因数量往往达到上万的级别,全体数据空间的分布不能通过训练模型来预测,因此分类方法不适合去预测未知基因的功能。而聚类可以通过把表达性相似的基因聚类来分析基因的功能而无需先验知识的干预。研究人员需

4、要根据大量基因中发现显著的富集通路的效果来调整聚类结果,因此需要高性能的聚类算法来支撑这种迭代的分析过程。作为大规模数据挖掘常用的数据规约的方法,采样技术几乎伴随着所有的高性能聚类算法,采样方法只能保证少部分样本获得聚类结果,无法保证可以根据少量样本获取全部基因的聚类结果,因此已有的高性能聚类算法并不适用基因表达数据的聚类问题。本课题针对基因表达数据聚类问题提出数据压缩算法,从簇边缘点发现入手,将原始大规模数据压缩为小规模数据,从而使得多次聚类过程在单次压缩后的小数据集上完成,从根源上解决了聚类的性能问题。由于现有的簇边缘检测算法性能均不是很理想,本文借助降维并在子空

5、间划分网格的方法,把簇边缘点的检测问题转化为边缘网格的识别问题,并借助密度有偏采样的方法来计算压缩率,从而根据该压缩率将每个网格内的原始数据通过加权插值的方法压缩为小规模的数据。从而聚类的对象由原始的基因变成了每个网格的压缩表示,该方法可以根据插值的权重将压缩后的数据映射为原始数据,从而更有效的确保原始数据的聚类精度。实验结果显示,该方法流程中纯粹的聚类时间占2%左右,在k值较大时相比原始K-Means具有2~4倍的加速,在运行50次以上的聚类过程时,其加速比可以达到12倍以上。相比于目前流行的Minibatch-Kmeans算法,在针对基因表达数据需要多次快速聚类的

6、场景中,本文的方法保证了聚类精度的损失更少,效率更高,可以为后续分析的流程奠定良好的基础,大大地减少实验人员对基因进行分析的迭代周期。关键词:基因表达数据;高性能聚类;有偏采样;数据压缩I哈尔滨工业大学工程硕士学位论文ABSTRACTAsanadvancedknowledgediscoveringmethod,clusteringhasbeenwidelyusedinmanyfields.Intheareaofbioinformatics,clusteringhasbeendemonstratedtobeespeciallyusefulindissectinggene

7、expressiondata.Amajorreasonforusingclusteringasthemainmethodfortheanalysisofgeneexpressiondataisthatthenumberofgenesishuge,butthenumberofknowngenesisstillsmall.It’simpracticaltoinferunknowngenefunctionswithlittleknownknowledgeusingsupervisedmethods.Moreover,modelstrainedbysmall

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。