欢迎来到天天文库
浏览记录
ID:34711310
大小:3.13 MB
页数:56页
时间:2019-03-09
《基于张量分解的癌症亚型分析算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于张量分解的癌症亚型分析算法的研究RESEARCHOFCANCERSUBTYPINGBASEDONTENSORFACTORIZATION李波哈尔滨工业大学2016年12月万方数据国内图书分类号:TP39学校代码:10213国际图书分类号:004.9密级:公开工程硕士学位论文基于张量分解的癌症亚型分析算法的研究硕士研究生:李波导师:王亚东教授申请学位:工程硕士学科:计算机技术所在单位:深圳研究生院答辩日期:2016年12月授予学位单位:哈尔滨工业大学万方数据ClassifiedIndex:TP39U.D.
2、C:004.9DissertationfortheMaster’sDegreeofEngineeringRESEARCHOFCANCERSUBTYPINGBASEDONTENSORFACTORIZATIONCandidate:LiBoSupervisor:Prof.WangYadongMaster’sDegreeofEngineeringSpeciality:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:Dec.2016Degree
3、-Conferring-Institution:HarbinInstituteofTechnology万方数据摘要摘要通过形态学或所属组织器官命名的癌症并不准确,癌症的临床治疗需要更精确的亚型才能对症下药和靶向治疗。通过对基因芯片数据如mRNA、miRNA、DNA、蛋白质等数据的分析能发现和识别出更准确的癌症亚型。整合多源基因组数据不仅能够发现肿瘤与基因组数据的关系,而且可以发现各基因数据之间对肿瘤的协同共作用关系。综合考虑不同基因数据,在不丢失信息的前提下分析不同数据相互之间的共享结构是分析癌症亚型的难点。本文使用
4、多维阵列的张量结构来整合多源基因组数据,不经过中间数据转换,保留的原始单一基因数据的特有信息,同时挖掘不同基因数据之间的协同致病模式。本文介绍了张量模型的原理和框架,在基于乳腺癌的基因表达谱数据和DNA甲基化数据上构建了张量模型,构建的方法是对预处理的芯片数据做差异表达分析,有明显差异的基因在张量中置位1或者保留原芯片值。表达正常或没有明显差异的基因则稀疏化为0。这样基因表达谱数据和甲基化数据就整合为一个三维张量。在现有的CP-ARP分解算法的基础上,本文针对基因芯片数据高维度小样本的数据特征和基因功能差异表达和表达
5、水平正常的两极化特征,引入了非负和稀疏性限制条件,优化了CP分解模型。改进的模型使用基于随机梯度下降的ALS优化方法,在计算性能上有所提升。使用改进的分解方法在与已经验证的乳腺癌五种亚型对比结果证明了张量分解模型在癌症分型应用上的有效性。通过对癌症分型的结果分析,验证了Her2这种临床已证明存在的亚型。从平均轮廓系数和生存分析等角度证明了算法的性能和所分亚型的有效性。证实了本文提出的方法在癌症的分型以及癌症诊断治疗上能提供一定的参考和借鉴。关键词:癌症;亚型;基因表达;甲基化;差异表达基因;张量分解I万方数据Abst
6、ractAbstractClassificationofcancerthroughphenotypeortissueorganwherecancersamplefromisnotexactlycorrect,clinicaltreatmentofcancerwillneedmuchmoreaccuratesubtypessothatpropermedicinecouldbegiven.AnalysisofmicroarraydatasuchasmRNA,miRNA,DNA,proteinandothermutatio
7、nkindofgenescouldhelptorevealaccuratecancersubtypes.Theintegrationofmulti-sourcegenomicdatacannotonlyhelptodiscoverytherelationshipbetweentumorandgenomicdata,butalsocanhelptofindthesynergybetweenthemselves.Howtoconsiderdifferentgeneticdatainthepremiseofnotlosin
8、gtheinformationcanalsoanalyzethesharingstructureisthedifficultyofthecancersubtyping.Thispaperproposeamulti-dimensionalarraytensortointegratemulti-sourcedata,withoutlosingthe
此文档下载收益归作者所有