欢迎来到天天文库
浏览记录
ID:35121640
大小:3.56 MB
页数:93页
时间:2019-03-19
《基于非负矩阵分解和稀疏表示对基因表达数据的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于非负矩阵分解和稀疏表示分类对基因表达数据研究作者姓名李小永指导教师姓名、职称王文俊副教授申请学位类别工学硕士万方数据2万方数据学校代码10701学号1403121711分类号TP39密级公开西安电子科技大学硕士学位论文基于非负矩阵分解和稀疏表示对基因表达数据的研究作者姓名:李小永一级学科:计算机科学与技术二级学科:计算机应用技术学位类别:工学硕士指导教师姓名、职称:王文俊副教授学院:计算机学院提交日期:2017年6月万方数据4万方数据GeneExpressionDataClusteringBasedOnNo
2、n-negativeMatrixFactorizationAndSparesRepresentationClassificationAthesissubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinComputerApplicationTechnologyByXiao-YongLiSupervisor:Wen-JunWangAssociateProfessorJune2017万方数据6万方数据
3、西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了
4、解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,获得学位后结合学位论文研究成果撰写的文章,署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:万方数据II万方数据摘要摘要随着人类基因组测序和多种生物模式的顺利完成以及DNA微阵列技术的应用,由此产生了大量的基因
5、表达数据,这些数据具有维数高,样本小的特点。如何有效地从大量基因表达数据中挖掘有价值信息,以求认识数据本质,了解生命过程,分析疾病形成原因,揭示基因功能和相互作用成为目前生物信息学研究所面临的巨大挑战。基于基因聚类和样本分类是针对基因表达数据挖掘其有用信息的关键手段。基因聚类就是对基因功能划分的一种重要手段,其中选择一种高效聚类方法是至关重要的。对样本分类是实现对基因识别和疾病诊断的一种有效辅助方式,其中对具有高维小样本数据分类的关键步骤是对数据进行降维和特征提取。本文针对基因聚类和样本分类,分别从非负矩阵分解
6、和稀疏表示两个方向做了相关研究。方向一:非负矩阵分解作为一种新的矩阵分解方式,也是一种新的聚类方式。由于具有非负约束,不仅使得分解后结果具有现实物理意义,还能够较容易提取训练样本的局部特征,本文采用非负矩阵分解对基因聚类做了如下研究:基因聚类是挖掘基因有价值信息的一种有效方式,通过基因表达水平研究具有相似功能的基因。本文主要通过非负矩阵分解方法对基因的相似功能进行研究:(1)传统聚类方式过分依赖相似性度量,而非负矩阵作为一种有效的数据聚类方法,并不依赖相似度量函数,因此,本文使用基于非负矩阵分解对基因表达数据进
7、行聚类分析;(2)非负矩阵分解对基因表达数据聚类并不能总是展现出良好的聚类效果,因此结合K均值聚类,提出一种基于非负矩阵快速聚类方法;(3)对yeast数据进行基因聚类分析,将文中所提方法与基本的非负矩阵分解和传统聚类方法进行实验,结果表明,所提出的基于非负矩阵快速聚类方法获得更稳定聚类效果。方向二:稀疏表示作为一种识别率高,鲁棒性强的分类技术,受到众多科研工作者的关注。稀疏表示技术并不关心特征的提取,而在于过多强调分类器的设计,因此,基于稀疏表示对基因表达数据分类的重心在于分类器设计。围绕非负矩阵分解和稀疏表
8、示做了如下工作:基于基因表达数据样本分类,包括:(1)基于微阵列技术产生的基因表达数据不仅具有典型的高维小样本特性,而且有时每类样本数相差很大,造成严重数据倾斜,因此,提出一种基于数据平衡策略的稀疏表示方法;(2)传统的稀疏表示分类只是利用基因表达数据之间的线性关系,缺乏内在非线性关系,因此,利用基因的相似距离,提出一种相似性稀疏表示方法;(3)针对稀疏表示对高维小样本数据分类的运行速
此文档下载收益归作者所有