基于图卷积网络的癌症临床结果预测方法

基于图卷积网络的癌症临床结果预测方法

ID:34954825

大小:1.67 MB

页数:59页

时间:2019-03-15

基于图卷积网络的癌症临床结果预测方法_第1页
基于图卷积网络的癌症临床结果预测方法_第2页
基于图卷积网络的癌症临床结果预测方法_第3页
基于图卷积网络的癌症临床结果预测方法_第4页
基于图卷积网络的癌症临床结果预测方法_第5页
资源描述:

《基于图卷积网络的癌症临床结果预测方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于图卷积网络的癌症临床结果预测方法AMETHODFORCANCERCLINICALOUTCOMEPREDICTIONBASEDONGRAPHCONVOLUTIONALNETWORKS宁世琦哈尔滨工业大学2018年6月国内图书分类号:TP391学校代码:10213国际图书分类号:681密级:公开工学硕士学位论文基于图卷积网络的癌症临床结果预测方法硕士研究生:宁世琦导师:任世军教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedI

2、ndex:TP391U.D.C:681DissertationfortheMasterDegreeinEngineeringAMETHODFORCANCERCLINICALOUTCOMEPREDICTIONBASEDONGRAPHCONVOLUTIONALNETWORKSCandidate:NingShiqiSupervisor:Prof.RenShijunAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffili

3、ation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要癌症是一个复杂的世界性健康问题,由于其高死亡率而备受科学各界关注。随着高通量测序技术的快速发展,生物数据无论在数量还是在种类上都有了质的变化,越来越多的生物信息数据可以被利用,比如基因表达谱等数据为癌症预测以及患者的治疗决策提供了十分充足的信息。然而随着数据规模的日益庞大,人们分析数据

4、的效率逐步下降。大规模数据必定意味着大量信息,如何从中获取关键价值信息便成了挑战。为了适应大规模数据,越来越多的机器学习方法已经被用于癌症检测,SVM,KNN(k-NearestNeighbors),决策树等经典的机器学习模型已经被广泛应用。由于单模型的限制,集成学习也被引进。随着二代测序技术的成熟,各种类型的生物数据被挖掘出来,所以多组学数据技术也被应用于生物信息方向。近年来,随着神经网络以及深度学习的逐渐成熟,很多新颖的神经网络模型也被用于生物信息的研究。然而上述这些研究方法绝大多数都属于监督学习方法。由于在生物学和医学上,获取

5、标签数据是十分昂贵的,所以现有的数据往往都是不充足的。一方面因为很多数据标签可能因为各个国家政策问题不能被获取,另一方面样本标签根本无法获取,但是相比之下,无标签的样本十分容易获得,而且廉价。在样本标签稀缺的情况下,监督学习的缺点十分明显,比如容易过拟合,泛化能力差等。于是我们很自然的想到利用半监督学习方法来解决样本标签稀疏的问题。半监督学习方法是监督学习和无监督学习的一种中和,这种方法使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。在这篇文章中,我们的贡献有两方面。一方面,图卷积神经网络绝大多数应用于关系矩阵为{0

6、,1}的2值的数据集中,比如知识图谱,社交关系网络预测等。但是我们认为这种图卷积神经网络同样适用与关系矩阵为[0,1]的连续值的情况。我们创新性地将图卷积网络应用于癌症的临床结果预测,判断样本是否患癌。另一方面,图卷积网络绝大多数应用于分类问题中,我们创新性地改进了GCN,加入一个隐藏层,赋予每个基因权重,将其用于基因选择。我们使用TCGA数据库的LUAD,UCEC,COAD数据集,用来检测我们的实验结果。在预测样本是否为癌症患者的目标中,我们与主流的机器学习方法比较,我们可以获得更高的AUC和ACC(准确率)。在基因选择的目标中,

7、与主流方法比较,我们找到了更多的相关基因,并且我们还发现了未被发现的,更有潜力被选为相关基因的基因。我们的实验结果充分证明了所使用的模型的有-I-摘要效性,并且在仅采用标签十分稀少的数据集时,也能超过主流方法的预测效果。关键词:癌症检测;机器学习;半监督学习;TCGA;图卷积神经网络-II-AbstractAbstractCancerisacomplexworldwidehealthproblem,whichhasattractedmuchattentionfromallcirclesofscienceduetoitshighmor

8、tality.Withtherapiddevelopmentofhighthroughputsequencingtechnology,biologicaldata,eitherinquantityorinspecieshaveaqua

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。