基于生物网络的致病miRNA预测及模块识别算法研究

基于生物网络的致病miRNA预测及模块识别算法研究

ID:76137223

大小:2.55 MB

页数:125页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于生物网络的致病miRNA预测及模块识别算法研究_第1页
基于生物网络的致病miRNA预测及模块识别算法研究_第2页
基于生物网络的致病miRNA预测及模块识别算法研究_第3页
基于生物网络的致病miRNA预测及模块识别算法研究_第4页
基于生物网络的致病miRNA预测及模块识别算法研究_第5页
基于生物网络的致病miRNA预测及模块识别算法研究_第6页
基于生物网络的致病miRNA预测及模块识别算法研究_第7页
基于生物网络的致病miRNA预测及模块识别算法研究_第8页
基于生物网络的致病miRNA预测及模块识别算法研究_第9页
基于生物网络的致病miRNA预测及模块识别算法研究_第10页
资源描述:

《基于生物网络的致病miRNA预测及模块识别算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

学校代号10532学号B1310H0008分类号TP391密级博士学位论文基于生物网络的致病miRNA预测及模块识别算法研究学位申请人姓名肖球培养单位信息科学与工程学院导师姓名及职称骆嘉伟教授学科专业计算机科学与技术研究方向数据挖掘、生物信息学论文提交日期2017年11月20日 学校代号:10532学号:B1310H0008密级:湖南大学博士学位论文基于生物网络的致病miRNA预测及模块识别算法研究学位申请人姓名:肖球导师姓名及职称:骆嘉伟教授培养单位:信息科学与工程学院专业名称:计算机科学与技术论文提交日期:2017年11月20日论文答辩日期:2017年12月06日答辩委员会主席:王志英教授 ResearchonPathogenicmiRNAPredictionandModuleIdentificationAlgorithmsBasedonBiologicalNetworksbyXIAOQiuM.S.(HunanUniversity)2013AdissertationsubmittedinpartialsatisfactionoftheRequirementsforthedegreeofDoctorofEngineeringinComputerScienceandTechnologyintheGraduateSchoolofHunanUniversitySupervisorProfessorLUOJiaweiNovember,2017 湖南大学本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研宄成果,本论文不包含任。除了文中特别加以标注引用的内容外何其他个人或集体己经发表或撰写的成果作品。对本文的研宄做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名日期:知"年"月〉日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全镩或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫雄等复ii手段保存和汇编本学位论文。本学位论文属于1、保密□6,在年后适用本授权书2、不保密“”(请在以上相应方框内打V)/)月作者签名:日期:>^年)曰观f 基于生物网络的致病miRNA预测及模块识别算法研究摘要自然界中许多复杂系统,如生物分子系统、生态系统等,皆可抽象成为复杂网络。近年来,随着生物技术的快速发展和后基因组时代的到来,大量真实的生物数据不断涌现,从系统水平对生物网络展开研究是当前生物信息学领域研究的热点之一,对于揭示生命现象本质以及疾病发病机理等具有重要的促进作用。当前,有关癌症等复杂疾病的研究是生物医学中极具价值和挑战性的课题,而完全基于生物实验来探索疾病发生的本质无疑是一项耗时且成本巨大的工作。因此,如何有效地利用海量组学数据并挖掘有价值的信息来辅助生物学研究,对于进一步理解和认识生命活动的内在规律等具有重要意义。生物分子网络作为一种特殊的复杂网络,它是利用生物组学数据研究各种生物现象的有力工具,基于生物网络的研究有助于系统的认识分子间的相互作用规律,同时也能够清晰地反映特殊状态下(如疾病发生等)各分子的行为特性和协同作用模式。本文以生物网络为主要研究对象,以数据挖掘、机器学习等方法为技术手段,在充分利用当前海量数据资源的基础上,主要针对人类复杂疾病致病miRNA的预测算法以及癌症特异的调控功能模块识别算法进行了研究,具体研究工作概述如下:(1)针对当前许多基于生物网络识别疾病关联miRNA的模型忽视了对不同网络拓扑特征和结构差异性等考虑的问题,通过分析发现,在由miRNA相似性网络、疾病相似性网络和miRNA-疾病已知关联信息构成的异构网络中,绝大部分已知miRNA-疾病关联被环状二分子图(CBG,circularbipartitegraph)覆盖,因而基于大部分潜在miRNA-疾病关联也可能被CBG子图所覆盖的假设,提出了一种新的基于二分子图和非平衡随机游走的疾病miRNA预测算法BRWH。该算法首先利用疾病之间的语义关系以及已知miRNA-疾病关联信息等数据,分别对疾病之间的相似性和miRNA之间的相似性进行了评估,从而完成异构网络的构建;随后,根据不同相似性网络拓扑结构存在的差异,采用非平衡随机游走的机制来实现潜在miRNA-疾病关联的预测。实验结果表明,与现有经典算法相比,BRWH算法取得了更优的性能。(2)针对当前疾病相关miRNA的预测算法普遍对已知的miRNA-疾病关联信息过度依赖的问题,提出了一种基于多信息融合的miRNA-疾病关联预测算法KRLSM。由于现有的实验验证的miRNA-疾病关联信息十分有限,为了降低已知关联先验信息对模型性能的影响,该算法首先通过整合多种可靠的生物数据,并采用不同的相似性计算方法对疾病或miRNA相似性进行综合的评估,同时基于II 博士学位论文线性组合方式将对应的不同相似性矩阵进行整合,从而减小矩阵的稀疏性;随后,利用克罗内克积(KroneckerProduct)矩阵性质将独立的miRNA空间和疾病空间合并为miRNA-疾病空间,并基于此空间应用正则化最小二乘法识别疾病miRNA候选。实验结果表明,KRLSM算法在已知miRNA-疾病关联较为稀疏的实验场景中同样能够取得较好的预测效果。(3)上述BRWH和KRLSM算法虽然在特定实验场景中预测效果较好,但是无法应用于新疾病和新miRNA的场景,或在该种场景中预测效果欠佳。针对不存在任何已知关联信息的新疾病或新miRNA的相关预测问题,提出了一种基于图正则化非负矩阵分解的疾病关联miRNA预测算法GRNMF。该算法首先通过借助新疾病或新miRNA在对应相似性网络中的邻居信息以及这些邻居对应的相互作用谱,采用加权K近邻谱的方式对原始miRNA-疾病关联矩阵进行更新;同时,为了保持原始样本空间的近邻几何特性,基于更新后的矩阵以及相似性网络,采用图正则化非负矩阵分解的方法来识别潜在的疾病关联的miRNA。与其他算法相比,GRNMF算法不仅在关联信息稀少的场景中预测效果更优,同时也能针对新miRNA或新疾病进行潜在miRNA-疾病关联的预测。(4)针对当前许多lncRNA、miRNA等非编码RNA分子的生物学功能以及它们对应的调控模式仍然知之甚少的问题,提出了一种基于多维癌症组学数据识别调控功能模块的算法CeModule。该算法有效地整合了lncRNA/miRNA/mRNA表达谱,同时通过充分利用lncRNA、miRNA和mRNA之间的互作数据,基于联合正交非负矩阵分解的框架将模块识别问题转换为一个目标优化问题,并采用L1正则化范数和基于网络的正则化约束条件来提高模块识别的准确性,最后利用交替迭代乘性更新算法对目标函数求解。实验结果表明,CeModule算法所识别的调控模块不仅包含了许多与癌症相关的lncRNA/miRNA/mRNA,同时这些模块也显著性富集于许多经典的生物过程或通路,通过生存分析也进一步发现了多个模块具有潜在临床诊断价值。关键词:生物网络;多信息融合;疾病miRNA;调控网络;模块识别III 基于生物网络的致病miRNA预测及模块识别算法研究AbstractManycomplexsystemsinnatureandsociety,suchasbiomolecularsystemsandecosystems,canbeeffectivelymodeledascomplexnetworks.Inrecentyears,withtherapiddevelopmentofbiotechnologyandthecomingofthepost-genomeera,alargeamountofrealbiologicaldatahasbeengenerated.Currently,researchonbiologicalnetworksatthesystemlevelisoneofthehottopicsinbioinformatics,whichcanhelptoaidindecipheringthephenomenonoflifeandtheunderlyingpathogenesisofhumanpolygenicdiseases.Meahwhile,itisalsoavaluableandchallengingtasktostudythecomplexdiseasessuchascancer.However,experimentalexplorationofdiseasepathogenesisisundoubtedlyatime-consumingandtremendouslyexpensiveprocess.Therefore,howtoeffectivelyutilizethoseomicsdataaswellasminevaluableinformationtoassistbiologicalresearchwillgreatlyexpandourunderstandingoftheinherentlawoflifeandfacilitatethediagnosisandtreatmentofhumandiseases.Thebiomolecularnetworksareakindofspecialcomplexnetworks,whicharepowerfultooltostudyvariousbiologicalphenomenawithomicsdata.Thestudyofbiologicalnetworksmaynotonlyhelptosystematicallyunderstandtheintricateinteractionsamongmoleculars,butalsoprovideaglobalviewofthebehavioralcharacteristicsorsynergisticpatternsformolecularsunderspecialcondictions.Inthisthesis,takingthebiologicalnetworksasthemainresearchobjects,usingthemethodssuchasdataminingandmachinelearningasthemaintechnicalmeans,aswellasfullyutilizingthemassiveomicsdata,wemainlystudythedisease-relatedmiRNApredictionalgorithmandthefunctionalmoduleidentificationalgorithm,themainworkandcontributionsareasfollows:(1)Motivatedbythefactthatmostpreviouscomputationalmethodsfailedtotakethedifferenttopologicalandstructuralcharacteristicsbetweendifferentnetworksintoaccount,basedontheanalysis,wefoundthatmostoftheknownmiRNA-diseaseassociationsintheheterogeneousnetworkconsistingofmiRNAsimilaritynetwork,diseasesimilaritynetworkandmiRNA-diseaseassociationnetworkwerecoveredbysmallcircularbipartitesubgraphs.Therefore,weconcludethatmostpotentialmiRNA-diseaseassociationsmayalsobecoveredbycircularbipartitesubgraphs,andproposeanovelmehtodcalledBRWHtodiscoverpotentialmiRNA-diseaseIV 博士学位论文associationsbasedonbipartitesubgraphandunbalancedrandomwalk.BRWHalgorithmfirstutilizesthesemanticrelationshipsbetweendiseasesandtheknownmiRNA-diseaseassociationinformationtoestimatethesimilarityforeachdiseasepairaswellasmiRNApair.Subsequently,takingintoaccountthedifferencesintopologiesofdifferentsimilarnetworks,anunbalancedbi-randomwalk-basedstrategyisappliedtouncoverthepotentialassociationsbetweenmiRNAsanddiseases.Theexperimentalresultsshowthattheproposedmethodoutperformstheotherstate-of-the-artapproaches.(2)Existinginsilicopredictionmethodstypicallyutilizeasingleorlimiteddatasourcesfordisease-relatedmiRNAprioritizationandmostofthemethodsarebiasedtowardknownmiRNA-diseaseassociations.HereweproposeanewalgorithmKRLSMtoprioritizedisease-relatedmiRNAcandidatesbasedonmulti-informationfusion.Duetotheinsufficientnumberofexperimentallyvalidatedinteractions,inordertoreducetheinfluenceoftheknownmiRNA-diseaseinformationonthepredictionperformance,theproposedalgorithmfirstintegratesavarietyofreliablebiologicaldataandusesdifferentsimilaritymeasurementstocomprehensivelyestimatethesimilaritybetweendifferentdiseasesormiRNAs,andthenintegratesthesesimilaritymatrixesfordiseasesormiRNAsthroughalinearcombinationtoreducethesparsityofthematrixes.Subsequently,itcombinesthediseasespaceandmiRNAspaceintoawholemiRNA-diseasespacebyKroneckerproduct,andemploystheclassifierofregularizedleastsquaresforpredictingthemissingmiRNA-diseaseassociations.TheexperimentalresultsindicatethatKRLSMcanalsoachievesuperiorperformanceinthediscoveryofpotentialmiRNA-diseaseassociationsforthosediseasesandmiRNAswithsparseknownassociations.(3)TheperformanceofBRWHandKRLSMinprioritizingdisease-relatedmiRNAcandidatesinspecificscenariosisgenerallygood,whereastheyareinappropriateforthosenewdiseasesormiRNAswithoutanyknownassociationinformation.Hereweproposeanewmethodwithgraphregularizednon-negativematrixfactorization,calledGRNMF,todiscoverpotentialassociationsbetweenmiRNAsanddiseases,especiallyfornewdiseasesandmiRNAsorthosediseasesandmiRNAswithsparseknownassociations.ConsideringthatthereisnoavailableinteractionobservedfornewdiseasesormiRNAs,theweightedKnearestneighborinteractionprofilesareconstructedtoupdatetheoriginalmiRNA-diseaseassociationadjacencymatrix.Meanwhile,inordertopreservethegeometricstructureoftheoriginalsamplespace,agraphregularizednon-negativematrixfactorizationV 基于生物网络的致病miRNA预测及模块识别算法研究frameworkisusedtopredictpotentialdisease-relatedmiRNAsbasedontheupdatedmatrixandthesimilaritynetworks.Comparedwithotheralgorithms,theGRNMFalgorithmnotonlyachievesbetterperformanceforthosediseasesandmiRNAswithsparseknownassociations,butalsocanbeeffectivelyappliedintheinferenceofpotentialassociationsfornoveldiseasesandmiRNAs.(4)Byconsideringthefactsthatthefunctionalrolesofnon-codingRNAssuchaslncRNAsandmiRNAsandtheircombinationalregulationpatternsarestillinsufficientlyunderstood.HerewedevelopanintegrativeframeworkcalledCeModuletoidentifyregulatoryfunctionalmodulesbasedonmulti-dimensionalomicsdata.WeintegratematchedlncRNA/miRNA/mRNAexpressionprofilesaswellastheinteractionsamonglncRNAs,miRNAsandmRNAs,andformulatethemoduleidentificationmodelasanoptimizationproblemofjointorthogonalitynon-negativematrixfactorization.TheL1regularizationnormandthenetwork-regularizedconstraintsarealsoincorporatedintothisframeworktoimprovethemoduleaccuracy,andaniterativemultiplicativeupdatingalgorithmisadoptedtosolvetheoptimizationproblem.TheexperimentalresultsshowthattheregulatorymoduleidentifiedbyCeModulealgorithmnotonlycontainsmanycancer-relatedlncRNAs/miRNAs/mRNAs,butalsoaresignificantlyenrichedinmanybiologicalprocessesorpathways.Thesurvivalanalysisalsoindicatesthatseveralmodulescanbeactedaspotentialbiomarkersforclinicaldiagnosisandtreatment.Keywords:BiologicalNetworks;Multi-informationFusion;DiseasemiRNAs;RegulatoryNetworks;ModuleIdentificationVI 博士学位论文目录学位论文原创性声明和学位论文版权使用授权书............................................I摘要................................................................................................................IIAbstract...........................................................................................................IV目录.............................................................................................................VII插图索引............................................................................................................X附表索引.........................................................................................................XII第1章绪论....................................................................................................11.1研究背景与意义...................................................................................11.2国内外研究现状...................................................................................31.2.1生物网络与复杂疾病研究.........................................................31.2.2疾病miRNA预测算法研究.......................................................51.2.3调控模块发现算法研究.............................................................71.3本文主要工作及贡献...........................................................................81.4论文组织结构.....................................................................................10第2章致病miRNA预测及模块识别问题相关概述.....................................112.1相似性网络构建方法.........................................................................112.1.1疾病相似性网络构建...............................................................112.1.2miRNA相似性网络构建..........................................................142.2疾病miRNA预测评价指标...............................................................162.3相关数据库简介.................................................................................172.4本章小结.............................................................................................19第3章基于二分子图和非平衡随机游走的疾病miRNA预测算法..............203.1引言....................................................................................................203.2相关工作.............................................................................................213.3基于二分子图和非平衡随机游走的疾病miRNA预测算法BRWH..223.3.1BRWH算法框架.......................................................................223.3.2异构生物网络构建...................................................................223.3.3二分子图统计分析...................................................................243.3.4非平衡随机游走模型...............................................................253.4实验及结果分析..................................................................................263.4.1实验数据来源..........................................................................26VII 基于生物网络的致病miRNA预测及模块识别算法研究3.4.2实验结果分析..........................................................................283.5本章小结.............................................................................................34第4章基于多信息融合的miRNA-疾病关联预测算法.................................354.1引言....................................................................................................354.2相关工作.............................................................................................354.3基于多信息融合的miRNA-疾病关联预测算法KRLSM...................364.3.1KRLSM算法框架.....................................................................364.3.2疾病相似性评估......................................................................364.3.3miRNA相似性评估..................................................................394.3.4KRLSM算法描述.....................................................................414.4实验及结果分析.................................................................................424.4.1实验数据来源..........................................................................424.4.2评估方法和指标......................................................................434.4.3实验结果分析..........................................................................444.5本章小结.............................................................................................52第5章基于图正则化非负矩阵分解的疾病miRNA预测算法......................535.1引言....................................................................................................535.2相关工作.............................................................................................535.3基于图正则化非负矩阵分解的疾病miRNA预测算法GRNMF........545.3.1GRNMF算法框架.....................................................................545.3.2相似性网络构建......................................................................555.3.3WKNNP预处理........................................................................565.3.4GRNMF算法描述.....................................................................575.4实验及结果分析.................................................................................615.4.1实验数据来源..........................................................................615.4.2实验场景设置..........................................................................615.4.3实验结果分析..........................................................................615.5本章小结.............................................................................................69第6章基于多维癌症组学数据的调控模块识别算法....................................706.1引言....................................................................................................706.2相关工作.............................................................................................716.3基于多维癌症组学数据的调控模块识别算法CeModule...................726.3.1CeModule算法框架..................................................................726.3.2JONMF模型构建......................................................................726.3.3正则化约束条件......................................................................74VIII 博士学位论文6.3.4CeModule算法描述..................................................................756.4实验及结果分析.................................................................................786.4.1实验数据来源..........................................................................786.4.2实验设置..................................................................................806.4.3实验结果分析..........................................................................816.5本章小结.............................................................................................89结论...............................................................................................................90参考文献...........................................................................................................93致谢.............................................................................................................106附录A攻读学位期间所发表的学术论文......................................................108附录B攻读学位期间所参加的科研项目......................................................110IX 基于生物网络的致病miRNA预测及模块识别算法研究插图索引图1.1疾病与miRNA相关异构生物网络..........................................................6图2.1基于疾病表型的相似性计算示意图......................................................12图2.2疾病ChoroidNeoplasms对应DAG图..................................................13图2.3LiverNeoplasms和BreastNeoplasms语义相似性计算示意图............14图2.4miRNA功能相似性计算过程示意图.....................................................15图2.5基因miRNA靶基因的相似性评估示意图............................................16图3.1BRWH算法流程图.................................................................................23图3.2CBG环状二分子图示例........................................................................25图3.3已知miRNA-疾病关联网络中miRNA和疾病的度分布情况..............28图3.4BRWH算法和比较算法ROC曲线........................................................30图3.5(a)BRWH、(b)MIDP、(c)MIDPE和(d)RWRMDAAUC值QQ图.......31图4.1KRLSM算法流程图...............................................................................37图4.2参数υ和ω对KRLSM算法性能的影响...............................................44图4.3实验场景一KRLSM与其他算法ROC曲线.........................................45图4.4实验场景二KRLSM与其他算法ROC曲线.........................................46图4.5各算法不同阈值下正确识别的已知关联条数统计...............................46图4.6新疾病实验场景下各算法ROC曲线比较............................................47图4.7KRLSM算法基于不同相似性评估策略下的AUC比较.......................48图4.8不同算法预测的乳腺癌、肺癌和前列腺癌miRNA重叠个数.............50图4.9乳腺癌、肺癌和前列腺癌及对应top30个miRNA候选所组成网络..51图4.10基于TAM工具对miRNA的功能注释结果........................................51图5.1GRNMF算法流程图..............................................................................55图5.2GRNMF与其他算法ROC曲线.............................................................62图5.3基于不同topk值下各算法AUC比较..................................................63图5.4GRNMF与四种比较算法的召回率(Recall)对比..............................63图5.5各算法不同阈值下正确识别的已知关联条数统计...............................64图5.6CVd和CVm实验场景下各算法性能比较..............................................65图5.7WKNNP预处理过程对GRNMF算法性能影响....................................66F*图5.8GRNMF和GRNM算法实验对比结果................................................66图5.9GRNMF预测结果中不同分组的差异性分析........................................68图6.1CeModule算法流程图...........................................................................73X 博士学位论文图6.2模块中lncRNA、miRNA和mRNA个数分布情况..............................80图6.3lncRNA、miRNA和mRNA相关模块调控网络...................................81图6.4各拓扑特征下排名前10的lncRNA重叠部分......................................82图6.5基于TAM工具的miRNA富集分析结果..............................................83图6.6CeModule识别的模块15所富集的KEGG通路..................................84图6.7CeModule识别的模块17所富集的KEGG通路..................................84图6.8CeModule识别模块与随机模块对应S(Cv)分值比较............................86图6.9模块1和2真实S(Cv)分值与随机条件下的比较结果..........................86图6.10模块中癌症或OV相关lncRNA、miRNA和mRNA比较.................87图6.11CeModule识别模块和基准集中lncRNA重叠个数统计....................88图6.12Kaplan-Meier生存分析........................................................................89XI 基于生物网络的致病miRNA预测及模块识别算法研究附表索引表3.15100条已知miRNA-疾病关联被CBG子图覆盖情况统计结果..........29表3.2不同疾病已知miRNA-疾病关联被CBG子图覆盖情况统计...............29表3.3不同参数组合对BRWH预测性能的影响.............................................30表3.4基于五折交叉验证实验各算法AUC值比较........................................31表3.5BRWH与三种比较算法配对t检验结果...............................................32表3.6BRWH预测的排名前50个与肺癌潜在相关miRNA...........................32表3.7BRWH预测的排名前50个与前列腺癌潜在相关miRNA...................33表4.1疾病语义相似性矩阵中对应疾病列非0元素个数...............................39表4.222种疾病五折交叉验证AUC值比较...................................................45表4.3各算法不同阈值下正确识别的已知关联所占比率...............................47表4.4KRLMS和MIDPE两种算法召回率(Recall)比较结果....................48表4.5KRLSM算法预测的top30个乳腺癌相关miRNA候选.......................49表4.6KRLSM算法预测的top30个肺癌相关miRNA候选...........................50表4.7KRLSM和MIDP预测结果中miRNA重叠部分..................................50表5.1GRNMF与四种比较算法的五折交叉验证结果....................................63表5.2GRNMF与比较算法配对t检验结果....................................................64表5.3基于不同topk值下各算法平均召回率比较........................................65表5.4GRNMF预测的乳腺癌、肺癌和前列腺癌前10个miRNA候选........67表5.5GRNMF和MIDP预测结果中miRNA重叠部分..................................67表5.6基于不同版本HMDD数据库下的实验结果........................................68表6.1不同拓扑特征下排名前10的lncRNA、miRNA和mRNA..................82表6.2CeModule识别的部分模块所富集的GO生物过程..............................83表6.3miRNA簇和miRNA家族富集分析结果..............................................85表6.4CeModule识别的部分模块中癌症和乳腺癌相关lncRNA...................87表6.5数据集相关信息汇总表.........................................................................88XII 博士学位论文第1章绪论1.1研究背景与意义随着高通量技术的快速发展以及人类基因组计划(HumanGenomeProject,HGP)的完成,海量的基因组学、蛋白质组学、转录组学以及复杂疾病等相关数据得以积累,这为研究人员在分子水平探索和揭示生命体的各项生命活动提供了[1-3]丰富的数据来源,也为分子生物功能以及调控关系等的研究提供了新的契机。基于分子水平的生物学研究,不仅有助于我们系统的理解各种生物大分子组成的复杂生物网络,如蛋白质相互作用网络、代谢网络、信号传导网络、转录调控网络以及转录后调控网络,同时,也能够加深对癌症等复杂疾病的发生、发展等机制或活动规律的理解,为揭示生物过程的实现机制和探索复杂疾病的发病机理等奠定基础。针对生物医学领域相关问题的研究,传统的方法大都基于生物实验或检测手段来完成,这不仅需要花费大量的时间,而且成本开销也十分巨大。因此,如何有效地利用当前快速发展的计算机技术以及海量的生物学数据,并采用高效、快速的计算方法来挖掘和提取有价值的信息用以解决研究者们所关注的生物学问题,这是当前系统生物学和生物信息学领域极具价值和挑战性的研究课题之一。当前,生命科学的研究已步入后基因组时代,有关人类疾病的研究是生命科学中的一个重要的研究领域,人类基因组精确图谱的成功绘制也为进一步全面了解疾病的产生机制开启了一扇新的大门。基因作为人类遗传信息的载体,它在许多生物过程中都扮演着重要角色。研究表明,人类许多疾病的产生与基因以及各[4,5]种生物分子的异常存在联系,同时也受外部环境的影响。通常,按照致病基因的数量来分,可将人类疾病划分为单基因疾病、多基因疾病和获得性基因疾病三类。单基因疾病往往是指由一对等位基因控制的疾病,常见的单基因疾病有血友病、白化病、红绿色盲等;多基因疾病,也称为复杂疾病,它主要由多个基因的表达异常或结构发生改变而导致,常见的复杂疾病有癌症、哮喘、糖尿病、高血压、冠心病、老年痴呆症等;获得性疾病则主要是指由于外源性病原体侵入感染导致的疾病,如艾滋病等。其中,复杂疾病是一种最为常见的疾病,它具有患病[6]率高、难以治愈等特点,一直困扰着广大患者和医疗工作者,其复杂的发病机制使得许多针对癌症等复杂疾病的研究长期没有取得突破性进展,癌症的发病率和死亡率也仍然居高不下。当前,有关癌症等的研究成为了研究者们一直致力于攻克的难题之一,因此,探索和发现复杂疾病的致病生物分子以及研究与复杂疾病相关的调控模式将有助于帮助揭示疾病发病的本质,进而促进有关人类复杂疾1 基于生物网络的致病miRNA预测及模块识别算法研究病的诊断和治疗。近年来,随着大量非编码小分子RNA(miRNA)的发现,越来越多的证据显示这些曾被喻为生命体“暗物质”的生物分子在维持复杂的生命活动中起着重要[7,8]作用。在人类基因组中,仅约2%的基因转录产物被真正翻译成了蛋白质,剩余约98%的基因则被转录成了非编码RNA(ncRNA),如miRNA、lncRNA、snoRNA、circRNA等。miRNA作为一种内源生的、长度约为22nt(核苷酸)的单链非编码RNA[9]小分子,它通过与靶标mRNA结合,诱导mRNA降解或者抑制其翻译。研究表明,miRNA作为一种重要的调控因子,参与了包括细胞的分化、增殖以及凋亡等一系列重要的生命过程,它在转录后水平对基因的表达以及蛋白质的翻译起着重要的调控作用,它的异常表达能够直接或间接的引起其所调控的靶基因的表达水平发生改变,从而导致复杂疾病的产生,通常一个miRNA可以参与多种疾病的[10]发生过程,而一种复杂疾病也可能同时受到多个miRNA协同调控的影响。当前,不同物种中新的miRNA仍不断被发现,完全依靠生物实验来对miRNA展开研究将是一个十分浩大的工程,而精确定位与特定癌症等复杂疾病相关的致病miRNA无疑也是一个非常耗时的工作,这也使得当前基于实验手段来发现和证实疾病miRNA的研究工作进展缓慢,迫切需要发展新的方法来指导生物学实验用以提高工作效率和降低成本,而借助机器学习、数据挖掘等技术来识别与复杂疾病相关的候选miRNA无疑是一个不错的选择。在生物体内部,组成生物系统的各种生物分子或组分一般紧密联系,如基因、蛋白质、非编码RNA、转录调控因子(TranscriptionalFactor,TF)等,它们通过相互作用或彼此制约等关系共同构成了不同的生物网络,这些网络基于特定条件来完成不同的生物功能,因此,孤立的研究单个生物分子无法系统地反映生命的本质以及各种生物现象的内在规律,而在系统水平对生物网络进行研究将有助于[11]我们进一步探索和发现生命活动的特性。当前,随着各种组学数据库的不断建[12][13][14]立,如TargetScan、TarBase、DIANA-LncBase等,大量的生物分子相关作用得到累积,而通过整合这些异构信息来挖掘具有特定生物功能的子结构或模[15][4,16,17]式,也是当前国内外研究的热点,如蛋白质复合物识别、调控模块识别、[18]网络模体发现等。已有研究表明,通过识别网络中具有特定功能的模块或调控模式,不仅能够有效地帮助了解模块中某些节点的未知功能,同时也能够从整体[19]上认识癌症等复杂疾病发生过程中各生物分子之间的相互作用机制。基于组学数据及癌症相关数据对调控模块进行识别,为更好地了解复杂的生命系统以及分析网络中特定生理状态下的生物单元提供了线索,同时也为人类复杂疾病发病机制的研究和药物靶标的筛选提供了新的思路。因此,本课题拟从生物信息学的角度出发,充分利用现有的海量的生物数据资源,结合计算科学的方法来对疾病相关问题进行研究以及建模,并设计新的算2 博士学位论文法或模型来对人类复杂疾病相关的致病miRNA分子进行预测;同时,以基于组学数据所构建的调控网络为研究对象,设计新的算法来识别与疾病相关的调控模块,并分析模块的拓扑特征以及生物学、生理学特性,进而识别出与特定疾病相关的预后标志物用以指导疾病的诊断和治疗。通过采用计算生物学的方法来预测致病miRNA和识别调控模块,对于开展有关复杂疾病相关的生物实验具有指导意义,能够大大提高实验者的效率和节省实验的开销,作为生物学研究的一种辅助手段,对帮助揭示疾病发生的本质以及药物设计、研制等都有着深远的影响。1.2国内外研究现状目前,基于生物网络从系统水平对癌症等人类复杂疾病进行探索和研究已受到国内外研究者们的广泛关注。近年来,研究者通过构建不同的生物网络模型,已在人类复杂疾病相关信息的挖掘、疾病致病生物分子的发现以及功能模块的识别等方面都取得了显著成果。结合本文研究内容,将着重从以下三方面对相关研究工作进行概述:1.2.1生物网络与复杂疾病研究生物网络是生物体内各种分子通过错综复杂的作用关系来共同完成各种生命功能的一个体系,对进一步揭示分子间的合作机制以及发现生命现象规律等具有很大的推动作用,利用生物组学数据建立网络模型是目前研究疾病发病机制的有力工具。当前,在围绕复杂疾病开展的相关研究中,主要应用到的网络模型包括有蛋白质互作网络(Protein-ProteinInteractionNetwork,PPIN)、miRNA调控网络、共调控网络(Co-regulatoryNetwork)、共表达网络(Co-expressionNetwork)、[20]疾病相似性网络、miRNA相似性网络等,相应的热点包括关键蛋白质预测、[15][18][21,22][17]蛋白质复合物识别、模体发现、致病因子预测、调控模块识别等,这些研究都有助于进一步帮助我们加深对于生命活动本质的理解,能够为人类癌症等复杂疾病的研究提供一定的科学依据。蛋白质作为构成细胞结构的基本有机物,它是细胞进行一切代谢活动的基础,各种生命活动的进行都与蛋白质之间的相互作用密不可分,从网络水平对蛋白质展开研究,能从系统层次对其在生物体中所扮演的角色有着更全面的认识。随着[23][24]质谱分析、蛋白质芯片技术、文献挖掘以及各种新兴的实验检测技术的发展,已有多个涉及不同物种的蛋白质相互作用网络数据库被创建,如BioGrid[25](BiologicalGeneralRepositoryforInteractionDatasets)、MIPS(Munich[26]InformationCenterforProteinSequence)、DIP(DatabaseofInteraetionProteins)[27]等。此外,生物体内除了蛋白质,还存在着基因、miRNA、lncRNA、转录因子等各种生物分子,针对分子间的作用关系、人类复杂疾病等也创建了多个可供3 基于生物网络的致病miRNA预测及模块识别算法研究[28][29][30][31]研究者免费使用的数据库,如miRanda、TransmiR、miR2Disease、HMDD、[32]lncRNADisease等。当前,由于有着相当丰富的相互作用和疾病相关的数据资源,因而针对生物网络及复杂疾病的研究深受科研工作者的关注,研究者通过对海量数据进行挖掘已获得了许多有价值的信息。近年来,随着对蛋白质网络研究的不断深入,研究表明PPI网络普遍具有复[33][34]杂网络小世界和无标度等的全局拓扑特性,同时,针对网络中的关键节点或子结构也开展了许多相关的研究,这些工作主要集中在关键蛋白质、蛋白质复合[18,20,35]物、网络模体等局部拓扑结构上。此外,根据蛋白质在生命活动中的重要程度,研究认为蛋白质可存在关键蛋白质(essentialprotein)和非关键蛋白质[36](non-essentialprotein)之分。其中,关键蛋白质是指那些保持生命体和维持生命功能正常所必不可少的蛋白质,将其剔除后会导致蛋白质复合物功能的缺失[37]。当前,采用生物科学的手段来对关键蛋白质进行识别的方法主要有RNA干[20][38][39]扰、单基因敲出、条件性基因剔除等,通过实验的手段对关键蛋白质进行识别的方式可靠性较高,但是同时也具有效率低、耗时多等不足,为此,通过充分利用现有的丰富的数据资源,采用生物信息学的方法来寻找关键蛋白质成为了一种不错的选择,它能够为生命体进化规律的发现以及复杂疾病发病机理等的[40][41]研究提供非常有价值的信息。例如,Wang等人和Li等人提出了基于网络节[42][43]点拓扑中心性来对网络节点的关键性进行度量的方法;Peng等人和Qi等人提出了基于多信息源融合机制的关键蛋白质识别方法;Kim等人提出了基于蛋白[44]质属性数据并采用机器学习的方法来对关键蛋白质进行识别的方法。蛋白质复合物则是指彼此间通过相互作用、共同完成特定功能的一组蛋白质的集合,通常它们参与同一生物过程且具有相同或相似的功能,常用的复合物识别算法有[45][46][47]CFinder、MCODE、CPM等;网络模体,是指相对随机网络而言,在真实网络中具有统计显著性且频繁出现的一种相互作用模式或子图,它被认为是复杂[48]网络的基本构成单元,模体的发现过程一般包含子图枚举、子图去同构以及子[49][50]图显著性评估等步骤,具有代表性的网络模体发现算法有Mfinder、MODA、[51]G-Tries等。蛋白质复合物和网络模体作为蛋白质相互作用网络中识别的两种子结构,不仅能够帮助研究者加深对生物网络的结构和功能的了解,同时也能够为蛋白质功能的预测以及疾病产生过程中分子间的合作机制等提供有价值的线索。相对于蛋白质相互作用网络,其他生物网络的精细化程度、节点类型以及作用模式等均要更为复杂。随着各种技术手段的不断更新,围绕这些生物网络的研究也取得了长足的发展并取得了许多成果。例如,基于miRNA调控网络,Zhang等人通过整合样本匹配的基因和miRNA表达谱以及相互作用信息,提出了一种[52]利用非负矩阵分解技术来识别miRNA调控模块的SNMNMF算法;Li等人首先利用序列预测信息和表达谱数据构建可靠的miRNA调控网络,随后基于贪婪4 博士学位论文[4]策略提出了采用邻居节点扩展的Mirsynergy算法来识别miRNA调控模块;Liang[53]等人也提出了基于二分团合并的调控模块发现算法BCM(BiCliquesMerging)。随后,针对共调控网络,Luo等人通过整合多种基因组学数据来识别miRNA和TF共调控模块,并基于乳腺癌数据对所识别的共调控模块进行了验证和分析,实[17]验表明所识别的调控模块具有显著的功能富集;同时,该团队基于基因、miRNA和TF组成的大规模的调控网络,提出了一种共调控复合网络模体发现的算法CoMoFinder(Co-regulatoryMotifFinder),实验表明所发现的模体内基因相互作[18]用紧密且具有较高的功能相似性,同时在多个生物过程和生物通路上显著富集。为了揭示乳腺癌的发生机制,Shi等人基于基因共表达网络并采用反复迭代的最大团枚举算法ICE(IterativeCliqueEnumeration)来识别共表达的模块,用于分[54]析和发现与乳腺癌相关的生物过程和调控机制等。另一方面,基于疾病相似、[55-57]miRNA相似性以及药物相似性等网络,Chen等人也开展了大量的工作用来研究复杂疾病相关的致病生物分子(如基因、miRNA、lncRNA等)以及药物靶标等的预测,并取得了显著的研究成果。1.2.2疾病miRNA预测算法研究miRNA是一类长度约为22个碱基的非编码RNA小分子,作为调控网络中一种重要的调控元件,它以碱基配对的方式与靶基因的3’UTR结合从而对基因的[58]表达进行调控,主要在转录后水平抑制mRNA的翻译或者使mRNA降解。miRNA作为一种微小的RNA分子,直到1993年第一个miRNAlin-4才被Ambors[59]等人所发现并逐渐进入人们的视野。近年来,大量研究表明,miRNA的突变和表达异常与复杂疾病的产生存在着密切的联系,因此,研究miRNA与疾病的关系对疾病的预测、诊断、治疗等意义重大。目前,围绕疾病关联miRNA的研究主要分为两种,即生物实验的方法和生物信息学的方法。当前,用于miRNA[60]与疾病关联性研究的实验技术主要有RT-PCR、Northernblot、基因芯片等,例如可以利用杂交以及PCR等技术来对miRNA表达水平进行检测,通过对差异表达的miRNA的功能进行分析,从而识别与癌症等复杂疾病相关的生物标志物,以此为疾病的预防、诊断、治疗等提供新的线索。随着对miRNA研究的不断深入,生物学家已经通过生物实验发现了一些与疾病存在潜在关联的miRNA,例如,早在2002年,研究者们就发现miRNA-15a和miRNA-16-1与慢性淋巴白血病的产生有着密切的联系;随后,Lu等人采用生物实验的手段也验证了疾病的产生和miRNA的功能失调或变异等存在着必然联系,并指出miRNA可以作为一种生物[61]分子用于癌症等疾病的诊断。在针对乳腺癌的研究过程中,实验表明miR-155[31]在癌细胞中表达水平要显著性高于其在正常细胞中的表达水平,Huang等人也[62]证实癌细胞的扩散速度与miRNA-520和miRNA-373的异常表达是有关联的。5 基于生物网络的致病miRNA预测及模块识别算法研究[31]此外,miR-11、miR-22、miR-124等一些miRNA也都被实验验证与癌症相关。通常,采用生物实验的方法获得的结果具有精度高的特点,它可以最终确定某个miRNA是否与该种疾病存在关联,但是该种方法对实验设备、环境以及科研人员水平等都有着较高的要求,同时时间成本及经费开销等也较大,从成千上万的基因、miRNA等生物分子中去探索它们是否与某种疾病相关无异是大海捞针,因此,迫切需要采用生物信息学等计算手段来辅助生物学研究,从而确保能够高效、快速、准确的对疾病相关miRNA进行定位,以帮助在分子水平揭示疾病的发病机制。疾病相似性网络疾病miRNA潜在疾病-关联miRNA关联已知网络关联miRNA相似性网络图1.1疾病与miRNA相关异构生物网络不同于传统的通过实验来发现生命规律和研究生物问题等的方法,生物信息学作为一门新兴的交叉学科,它主要依赖于采用计算机技术、信息技术、统计学方法等来解决相关生物问题,将海量的组学数据作为先验知识来挖掘有价值的信息从而帮助揭示生命的本质,该方法能够在大规模生物网络中高效地完成包括致病因子预测、功能模块发现等相关任务,对于指导生物实验、降低实验成本、提高实验效率等方面意义重大。近年来,国内外研究者运用生物信息学技术手段对miRNA与疾病进行了大量研究,许多计算模型和算法被用于解决癌症等复杂疾病[63-65]的相关预测问题。2010年,Jiang等人提出了第一个用于疾病候选miRNA预测的计算方法,该方法首先构建了miRNA功能相似性网络和人类表型-miRNAome网络,如图1.1所示,并采用超几何分布来评估miRNA与疾病之间[66]的潜在关联性分值;随后,为了进一步提高预测的精度,该团队通过整合了包[67]括疾病表型相似性在内的多种异构数据源来获得更好的预测效果。同时,Li等人借助miRNA-靶基因调控关系和基因-疾病已知关联信息等,通过评估与某种特定疾病存在已知关联的靶基因和miRNA靶基因之间的功能一致性分值6 博士学位论文(FunctionalCinsistencyScore,FCS),从而优选与该种疾病存在潜在关联的致病[68]miRNA分子。此外,大量证据表明,功能相似的miRNA通常与表型相似的疾[69]病存在关联,反之亦然。基于此假设,许多基于相似性度量及机器学习的方法被提出用于疾病关联miRNA的预测,如Xuan等人首先构建了miRNA功能相似性网络,并结合miRNA家族或簇信息,基于加权k最相似邻居的关系来识别与[70]人类疾病最相关的miRNA;Chen团队也提出了包括基于路径的PBMDA[71](Path-basedComputationalModelforMiRNA-Disease)、基于排名K近邻的[72]RKNNMDA(Ranking-basedKNNforMiRNA-DiseaseAssociationPrediction)等多个计算方法用于潜在疾病miRNA的发现。以上研究充分体现了当前有关疾病miRNA预测领域的发展现状,为后续探索和揭示癌症等人类复杂疾病的相关生物难题提供了新的思路和线索。1.2.3调控模块发现算法研究目前,在生物网络中对于模块的定义还没有形成严格统一的标准,通常模块是指那些内部生物分子联系紧密且相对独立于网络其他部分的网络组分,模块内的生物分子大都具有相同或相似的功能且参与相同的生物过程,共同完成生命体[73]的一组特定功能。理论上,调控网络包含了调控因子和被调控因子之间所有可能的的调控关系以及完成某种生物功能的各种可能的组合调控机制。因此,有关生物功能模块的研究受到了国内外学者的持续关注。基于生物网络的模块发现算法旨在挖掘生物体内紧密联系的TF、miRNA、基因等生物分子组成的子结构,从而进一步加深对生命系统中各种复杂调控模式以及分子间合作机制的理解。在转录后水平,为了研究miRNA的功能和调控模式,针对所采用数据源的不同,可以将模块发现算法主要分为两类,即基于序列的方法以及基于序列和表达谱信息相结合的方法。基于序列数据,Yoon等人首先构建了miRNA与目标基因相关[74]的二分图网络模型,并采用图形挖掘的算法来发现miRNA-基因调控模块;Krek等人基于统计实验的方法识别miRNA的靶基因,研究表明miRNA之间存在的广[75]泛的协同作用关系。另外,通过融合序列和表达谱数据等多种信息源,Joung等人提出了采用概率学习的方法推导miRNA-mRNA调控关系以及发现条件特异[76]的miRNA-mRNA功能模块;Huang等人也提出了采用贝叶斯数据分析算法来[77]识别miRNA与目标基因之间的调控作用关系的模型。此外,针对TF-miRNA、miRNA-miRNA、TF-TF等共调控关系的研究也取得的许多成果,如Qin等人利用表达谱和绑定位点等信息,在乳腺癌中对TF、miRNA和基因之间的调控关系进[78]行了分析并最终构建了共调控网络;通过利用miRNA和mRNA表达谱及TF-miRNA调控关系数据,Jiang等提出了一种用于识别老年痴呆症中活跃TF-miRNA调控通路(RegulatoryPathway)的方法,这些通路能够为研究者揭示7 基于生物网络的致病miRNA预测及模块识别算法研究[79]该疾病的发病机理提供新的线索。随着研究者们对miRNA等非编码RNA的持续关注,越来越多的研究表明ncRNA在生物体的不同生物过程中起到了举足轻重的作用,如细胞的增殖、分化以及新陈代谢等。当前,有关非编码RNA调控机制的研究大都侧重于miRNA,而对于lncRNA、假基因(pseudogene)和circRNA等非编码RNA调控关系的研究相对较少。2011年,Salmena等人提出了一种竞争性内源RNA(competingendogenousRNA,ceRNA)的假说,该假说揭示了一种RNA间相互作用的新机制,指出具有相同miRNA反应元件(miRNAresponseelements,MREs)的ceRNA之间可以通过竞争性的与miRNA结合从而间接调控靶基因的表达,常见的ceRNA分子包括lncRNA、假基因、mRNA等,这种全新的基因表达调控机制很大程度上颠覆了以往对miRNA与基因间调控模式的理解,对于帮助揭示癌症等疾病的[80]研究难题意义重大。例如,在肝癌的发生过程中,lncRNAHULS作为一种miRNA海绵体(sponge),它通过竞争性的与miR-372相结合从而抑制该miRNA[81]对基因PRKACB的翻译,最终间接地对PRKACB的表达水平产生影响;在拟南芥物种中,lncRNAIPS1与mRNAPHO2在miR-300上存在着相同反应元件[82](MRE),过表达的IPS1会致使PHO2表达水平的升高。目前,许多lncRNA、假基因等miRNA海绵体已经被发现与许多人类癌症等复杂疾病的产生存在紧密[83][3][84]联系,如胃癌、喉鳞状细胞癌、心脏肥大等。同时,许多lncRNA等相关[14]的组学数据也被不断的收集整理,相关的数据库包括有DIANA-LncBase、[85][32]Linc2GO、LncRNADisease等,这些免费开放的数据资源有助于科研工作者进一步对ceRNA的潜在机制和生物学现象开展研究。近年来,有关miRNA、lncRNA等生物分子以及调控网络等的研究都取得了长足的进步,但是,随着各种新的lncRNA等分子在不同物种中被发现,有关这些生物分子的功能以及在癌症等疾病中扮演的角色及调控模式等仍知之甚少。因此,为了更深入全面地揭示生命本质和复杂疾病发病机理,对lncRNA、miRNA和mRNA等分子间相互作用关系或调控模式开展研究也很有必要。1.3本文主要工作及贡献针对人类复杂疾病的研究一直是生物医学工作者重点关注的课题和研究难点,这些研究有助于揭示疾病本质进而帮助改善医疗环境和提高病人的治愈可能。当前,随着人类基因组计划的完成和高通量技术的快速发展,各种海量的组学数据为深入的探索和揭示生命现象提供了机遇。借助计算方法对复杂疾病进行研究是计算生物学和生物信息学领域的重要课题之一,它能够为复杂疾病的相关生物实验研究提供有价值的线索。本文充分利用当前丰富的生物数据资源,并构建不同的生物网络模型,基于网络水平对复杂疾病致病miRNA的预测以及疾病特异的8 博士学位论文调控功能模块的识别等问题进行了深入研究。具体而言,本文开展的主要工作及贡献可概述如下:(1)针对当前大多数基于异构网络的致病miRNA预测算法忽视了对网络拓扑特征以及不同网络结构差异性的考虑,本文从拓扑角度出发提出了一种基于二分子图的非平衡随机游走算法BRWH来预测miRNA-疾病关联。算法首先基于不同的相似性度量策略对任意一对miRNA或疾病的相似性进行评估,并由miRNA相似性网络、疾病相似性网络和miRNA-疾病已知关联完成miRNA-疾病异构网络的构建;随后,基于异构网络识别不同规模的环状二分子图CBG(circularbipartitegraph)并统计分析,得出了异构网络中绝大部分已知miRNA-疾病关联被CBG子图所覆盖的结论,进而提出了大部分潜在的miRNA-疾病关联也可能被CBG子图所覆盖的假设;最后基于该假设条件,同时考虑不同相似性网络拓扑结构的差异,采用非平衡随机游走策略来识别异构网络中miRNA与疾病之间的映射关系。交叉验证和案例分析等实验结果表明,BRWH算法和比较算法相比具有更高的预测精度。(2)考虑到目前miRNA-疾病的已知关联信息十分有限,且无法获得实验验证的负样本,为了克服预测模型对miRNA-疾病关联信息的过度依赖,提出了一种多信息融合的疾病关联miRNA预测算法KRLSM。第一阶段,该算法整合了多种异构的组学数据综合评估miRNA之间、疾病之间的相似性,并基于线性组合方式将miRNA功能相似、疾病语义相似性以及miRNA/疾病高斯核相似进行有效融合;然后,采用克罗内克积(KroneckerProduct)方式将miRNA空间和疾病空间转化为一个整合的miRNA-疾病空间,并基于该空间采用正则化最小二乘法实现疾病关联miRNA的优选。相比于已有算法,实验结果表明KRLSM算法在miRNA-疾病关联网络较为稀疏的情况同样能够取得较好的效果。(3)针对不存在任何已知miRNA-疾病关联信息的新miRNA或新疾病的预测问题,提出了一种基于图正则化非负矩阵分解的疾病关联miRNA识别算法GRNMF。第一阶段,该算法基于不同数据源分别构建了miRNA相似性网络和疾病相似性网络;第二阶段,考虑到新miRNA或新疾病在关联网络中为孤立点,通过利用其他miRNA或疾病的关联信息及上一阶段构建的相似性网络,基于网络拓扑结构并采用加权K近邻谱的策略获得更新的加权关联网络的对应矩阵;最后,将疾病关联miRNA预测问题转换为一个推荐任务,为了保持原始数据样本的近邻几何结构,采用基于图正则化非负矩阵分解的策略来识别潜在的疾病相关的miRNA。实验结果表明,GRNMF算法相比于已有算法不仅能够在关联网络较为稀疏的场景下取得更优的预测效果,同时也能够对新miRNA或新疾病的潜在miRNA-疾病关联进行有效地预测。(4)考虑到当前对大部分癌症特异的非编码RNA的功能角色以及调控模式9 基于生物网络的致病miRNA预测及模块识别算法研究仍然不是很了解,提出了一种基于多维癌症组学数据的功能模块识别算法CeModule。算法首先整合了样本匹配的lncRNA、miRNA和mRNA表达谱数据,并将模块的识别问题转换为一个基于联合正交非负矩阵分解的目标优化问题,同时通过向目标函数引入L1正则化约束项来帮助获得稀疏解。另外,通常具有紧密联系的节点更倾向于分配到同一调控模块,为此,充分利用现有的miRNA-lncRNA、miRNA-mRNA和mRNA-mRNA相互作用网络数据,通过在目标函数进一步添加基于网络的正则化约束条件来提高模块的识别精度。最后,利用迭代乘性更新的算法来对目标函数进行优化求解。实验结果表明,CeModule算法所识别的调控模块在许多癌症相关的生物过程和通路上显著性富集,且部分模块可作为潜在标志物为病人的临床诊断研究提供有价值的线索。1.4论文组织结构全文包括六章及一个结论部分,具体内容安排如下:第1章为绪论,主要对本课题的研究背景和意义做了简单概述,随后围绕生物网络和复杂疾病相关课题的国内外研究现状进行了介绍,并在此基础上提出了本文将要开展的主要工作以及创新之处。第2章介绍了与本课题研究相关的部分基础知识,并对疾病相关miRNA预测模型所涉及的相似性评估策略进行了介绍,最后对后续论文中涉及的相关数据库进行的简单概述。第3章详细阐述了基于二分子图和非平衡随机游走的疾病关联miRNA预测算法。首先对相关的研究工作进行了介绍并指出了存在的问题;然后,基于存在的问题提出一种新的计算模型,并详细介绍了模型实现的具体思路和步骤;最后,通过方法对比和实验分析验证了模型的有效性。第4章主要介绍了基于多信息融合的miRNA-疾病关联预测算法。首先阐述了现有研究工作和相关问题,并提出了一种基于多信息融合的方法来克服部分模型对已知miRNA-疾病关联信息过度依赖的问题;随后详细介绍了模型的整体框架和具体步骤,并通过实验分析验证了算法的有效性。第5章主要介绍了基于图正则化非负矩阵分解的疾病关联miRNA预测算法。文中首先对现有的研究工作进行了概述,针对与新miRNA或新疾病相关的应用场景提出了一种新的计算模型,并详细介绍了其具体的实现过程;然后,通过实验对比和分析验证了算法的预测性能。第6章详细介绍了基于多维癌症组学数据的调控功能模块识别算法。首先对现有研究工作和研究动机进行了阐述;随后详细介绍了算法的具体步骤;最后,通过实验对所识别功能模块进行分析和验证。最后对本文主要工作进行了总结,并对未来的研究工作进行了展望。10 博士学位论文第2章致病miRNA预测及模块识别问题相关概述人类癌症等复杂疾病相关研究是当前生物医学领域的重要课题之一,识别疾病相关的致病miRNA以及探索分子间复杂的调控模式对于认识疾病机理、制定新的疾病诊断方法以及设计更有针对性的药物等具有重要意义。本文研究的主要工作在于采用生物信息学的方法来预测潜在的致病miRNA和识别疾病特异的调控模块,为了便于后续章节对相关研究工作进行更清晰、深入的阐述,本章将对后续工作中涉及的有关相似性网络构建方法、实验评估指标以及相关数据库资源等知识进行概述。2.1相似性网络构建方法当前,海量组学数据的出现为基于网络水平的生物学研究创造了必要条件,研究表明生物网络通常具有无标度、小世界及高聚集系数等复杂网络的特性。在生物信息学领域,复杂网络是一种研究复杂生命系统的重要工具,它通过将各种生物分子(或因素)抽象为节点,分子(或因素)间的作用关系或相互影响抽象为边,并基于网络层面系统地对各种生命现象进行分析,从而用以阐述生命现象的本质。通常,可以采用图G=(V,E)来表示一个生物网络,其中V表示节点的集合,E为边的集合。研究表明,功能相似的miRNA通常倾向于与相似的疾病存[69]在关联,因此,通过整合多种组学数据来构建疾病或miRNA相似性网络成为了当前许多计算模型中不可或缺的一部分。结合本课题研究的实际需要,下面将对目前较为常见的疾病相似性网络和miRNA相似性网络的重构方法进行相关介绍。2.1.1疾病相似性网络构建在预测miRNA-疾病潜在关联的计算模型中,研究人员通常基于疾病的表型或临床诊断等数据来研究疾病之间的相似性,各种类型的疾病相关数据资源为疾病之间相似性的评估提供了各种可能,这些数据库主要包括有人类表型本体[86](HumanPhenotypeOntology,HPO)、遗传关联数据库(GeneticAssociation[87]Database,GAD)、在线人类孟德尔遗传数据库(OnlineMendelianInheritance[88][89]inMan,OMIM)、医学主题词表(MedicalSubjectHeadings,MeSH)等。目前,常应用于疾病关联miRNA预测模型中的疾病相似性计算方法主要有两类,即基于表型相似性的方法和基于语义相似性的方法。(1)疾病表型相似性计算方法疾病表型,通常是指疾病个体表现出的临床性状或特征信息。早在2006年,11 基于生物网络的致病miRNA预测及模块识别算法研究MarcAvanDriel等人就基于OMIM数据库中5080种人类疾病的表型数据,通过采用文本挖掘的方法获得了两两疾病之间的表型相似性,这些表型相似性数据可从MimMiner数据库(http://www.cmbi.ru.nl/MimMiner)免费下载。有关MimMiner表型相似计算方法的具体过程可如图2.1所示:对OMIM文本中获得每条OMIM基于余弦公式计统计OMIM每条记记录进行向量记录对应的特算OMIM记录间的录中实体概念相似性化处理征向量图2.1基于疾病表型的相似性计算示意图首先,通过MeSH医学主题词从OMIM数据库中提取信息,并对每条OMIM记录中各实体概念出现的次数进行统计,通常某个特定概率在该记录中出现的次数反映了其与对应表型间的关联性;随后,基于MeSH数据库中实体概念之间的层次结构关系、包含的信息量等因素,对OMIM记录进行向量化处理,并构造每条记录对应的特征向量;最后,基于余弦公式(2.1)计算上述构造的两两特征向量X、Y间的相似度,从而最终获得对应疾病之间的相似性分值。nxyiii1sxy(,)nn22(2.1)xyiiii11其中,s(x,y)是关于特征向量X、Y的各自概念频率x和y的函数,i则从1到MeSH的概念个数n。(2)疾病语义相似性计算方法在生物信息学中,语义相似性方法一直深受研究者们的关注,并在许多研究领域对于解决某些特定生物医学问题起着重要的作用。近年来,随着各种本体论[90][91]相关数据库被创建,如GO(GeneOntology)、DO(DiseaseOntology)、[92]HPO(HumanPhenotypeOntology)等,相关语义相似性的评估方法在生物医学中的应用也越来越广泛。例如,在疾病基因预测的过程中,可以通过借助GO语义信息来评估基因间的相似性。同时,在针对GO语义相似性的研究中,更有[93][94]诸如GOSim、GoToolBox等多种软件资源被开发出来供生物学家使用。基于此,2010年,Wang等人基于GO语义相似性计算的相同策略,提出了[69]有关疾病语义相似性评估的方法和miRNA功能相似性的计算模型MISIM,由此建立的疾病语义相似性网络和miRNA功能相似性网络在后续研究中获得了广泛运用,并深受有关疾病关联miRNA预测的研究者们的关注。Wang方法通过利用MeSH数据库中C类疾病数据构建有关疾病的有向无环图(DirectedAcyclicGraph,DAG),该图中每个节点对应一种疾病,节点之间的有向边代表疾病之间12 博士学位论文“is-a”的层次关系,并基于DAG图中节点的层次结构关系来计算疾病之间的相似性。C04;Neoplasms4thlayerC04.588;NeoplasmsbySiteC11;EyeDiseases3thlayerC04.588.364;C11.319;EyeNeoplasmsC11.941;UvealDiseases2thlayerC04.588.364.978;C11.319.494;C11.941.855;UvealNeoplasmsC11.941.160;ChoroidDiseases1thlayerC04.588.364.978.223;C11.319.494.198;C11.941.855.198;C11.941.160.238;ChoroidNeoplasms0thlayer图2.2疾病ChoroidNeoplasms对应DAG图首先,为了便于利用DAG图来对疾病之间的语义相似性进行评估,任意疾病A可表示为一个从该疾病节点出发直至其最上层祖先节点所组成的DAG图,如图2.2所示,即DAG(A)=(A,T(A),E(A)),其中T(A)表示该子图中所有疾病节点的集合,E(A)表示疾病A与其他节点之间对应边或语义关系的集合,则疾病A对应的语义值DV(A)可表示为公式2.2:DV()ADtA()(2.2)tTA()其中,DA(t)表示疾病A对应的DAG图中每个祖先节点对疾病A的语义贡献值,具体计算方法如公式2.3所示:DA()1A(2.3)DtAA()max*Dt(')|'tchildrentift()A其中,△为语义贡献因子,0<△<1,children(t)表示t的子节点,因此,从公式2.3可以发现,DAG图中距离疾病A节点越远的祖先节点对其语义贡献越小。例如,当△=0.5时,图2.2中疾病“ChoroidNeoplasms”对应的语义值DV(CN)=1.0(1.0isthesemanticcontributionvalueof‘ChoroidNeoplasms’)+0.5(‘UvealNeoplasm’)+0.5×0.5(‘EyeNeoplasm’)+0.5×0.5×0.5(‘NeoplasmBySite’)+0.5×0.5×0.5×0.5(‘Neoplasm’)+0.5(‘ChoroidDiseases’)+0.5×0.5(‘UvealDiseases’)+0.5×0.5×0.5(‘EyeDiseases’)=2.8125。最后,Wang方法中有关疾病A和B之间的语义相似性可由如下公式计算获得:tT()T()AB(DtAB()Dt())DSimAB(,)(2.4)DVA()DVB()其疾病语义相似性的具体计算过程如示意图2.3所示:13 基于生物网络的致病miRNA预测及模块识别算法研究DAG(BreastNeoplasms(BN))DAG(LiverNeoplasms(LN))C17;SkinandConnectiveC04;NeoplasmsC04;NeoplasmsTissueDiseasesC04.588;C04.588;C06;DigestiveSystemC17.800;SkinDiseasesNeoplasmsbySiteNeoplasmsbySiteDiseasesC17.800.090;C04.588.274;C06.301;DigestiveC06.552;LiverBreastDiseasesSystemNeoplasmsDiseasesC04.588.180;C17.800.090.500;C04.588.274.623;C06.552.697;BreastNeoplasmsC06.301.623;LiverNeoplasmsThesemanticvalueofLiverThesemanticinteractionvalueThesemanticvalueofBreastNeoplasmsofLiverNeoplasmsandBreastNeoplasmsNeoplsmsCalculatethesemanticsimilaritybetweendiseaseLNandBN图2.3LiverNeoplasms和BreastNeoplasms语义相似性计算示意图2.1.2miRNA相似性网络构建近年来,随着对miRNA和复杂疾病研究的不断深入,大量证据表明功能相似[69]的miRNA通常参与相似的疾病过程,反之亦然。因此,基于上述理论基础,miRNA相似性网络的构建成为了当前大多数疾病相关miRNA预测过程的重要环节。目前,常用于miRNA相似性计算的方法包括基于miRNA关联疾病的方法、基于miRNA靶基因的方法、基于miRNA表达谱的方法、基于miRNA序列的方[95]法等,以上这些方法通过充分利用现有的各种类型的组学数据资源,共同推动了有关疾病相关miRNA研究的快速发展。结合本课题后续章节研究内容的需要,本节将主要对基于miRNA关联疾病以及miRNA靶基因数据对miRNA之间相似性进行计算的方法进行介绍。(1)基于关联疾病的miRNA相似性计算方法如上节所述,Wang等人通过MeSH的疾病DAG图来度量疾病之间的语义相似性,同时,借助与miRNA存在关联的疾病的语义相似性信息来评估miRNA之间的功能相似并构建功能相似性网络。如图2.4所示,假设存在任意miRNAu和miRNAv,DTu={liverneoplasms(LN),breastneoplasms(BN)}和DTv={pancreaticneoplasms(PN),breastneoplasms(BN)}分别表示与这两个miRNA存在已知关联的两组疾病,Wang方法通过评估两组疾病集合DTu和DTv之间相似性来度量miRNA14 博士学位论文u和miRNAv的功能相似性。miRNAumiRNAvDTu={liverneoplasms(LN),breastneoplasms(BN)}DTv={pancreaticneoplasms(PN),breastneoplasms(BN)}Step1DSim(LN,PN)DSim(LN,BN)DSim(BN,PN)DSim(BN,BN)Step2Sim(LN,DTv)Sim(BN,DTv)Sim(PN,DTu)Sim(BN,DTu)Step3Msim(u,v)图2.4miRNA功能相似性计算过程示意图Step1:基于上节Wang的疾病语义相似性计算策略,首先对两两疾病du∈DTu和dv∈DTv之间相似性进行评估,举例说明,如图2.4中所示疾病liverneoplasms(LN)和breastneoplasms(BN)之间的语义相似性可表示为DSim(LN,BN),其相似性值可依据这两种疾病对应DAG图并参照图2.3疾病语义相似性的计算流程获得;Step2:计算疾病du∈DTu和DTv之间以及DTu和疾病dv∈DTv之间的相似性,具体计算方法如下所示:Sim(,dtDT)max(DSim(,dtdt))(2.5)i1ik其中,dt和DT={dt1,dt2,…,dtk}分别表示疾病d(或udv)和疾病集合DT(或vDTu),Sim(dt,DT)表示一个疾病与一个疾病集合之间的相似性,其值即为疾病dt与疾病集合DT中各种疾病之间语义相似性的最大值。Step3:计算疾病集合DTu和DTv之间的相似性,将其值作为miRNAu和miRNAv之间的功能相似性Msim(u,v),其计算公式如下所示:Sim(dtDTi,v)Sim(dtDTj,u)1iDT|uv|1jDT||(2.6)MSim(,)uv|DTuv||DT|(2)基于靶基因的miRNA相似性计算方法miRNA作为一种重要的调控因子,它主要通过对靶基因进行调控来行使其生物功能,因而也为利用miRNA的靶基因数据计算miRNA之间的功能相似性提供了理论基础。目前,已有许多成熟的可用于miRNA靶基因识别的方法,也存在[96]着多个免费开放的miRNA-靶基因数据库可供研究者使用,如TargetScan、[97][98][13]miRecords、miRTarBase、TarBase等,另外,GO等数据库中也蕴藏着大量与基因相关的功能注释信息,这些都为基于靶基因数据来对miRNA之间的相似性进行评估创造了条件。当前,许多miRNA功能相似性的计算方法常常基于15 基于生物网络的致病miRNA预测及模块识别算法研究miRNA与靶基因的一些相关特性,这些特性主要体现在:1)如果两个miRNA调控的公共靶基因越多,如图2.5所示,那么这两个miRNA的功能越有可能相似;2)如果两个miRNA显著性共调控由它们公共靶基因集合中的部分基因组成的某些功能模块,那么这两个miRNA的功能可能相似;3)如果两个miRNA的靶基因在蛋白质相互作用(Protein-ProteinInteraction,PPI)网络中联系越紧密或相互作用越强,则这两个miRNA的功能可能越相似;4)如果两个miRNA的公共靶基因集在GO功能或KEGG通路上显著性富集,则这两个miRNA功能相似。miRNAAmiRNAATargetsofmiRNAAA∩BTargetsofmiRNABmiRNABmiRNAB图2.5基因miRNA靶基因的相似性评估示意图除了以上介绍的有关miRNA相似性计算的模型或评估策略外,研究者们还提出了许多其他不同的计算方法,如通过整合miRNA关联疾病信息、目标基因、表达谱等两种或多种不同类型信息来对miRNA功能相似性进行评估,这些方法对于miRNA功能、miRNA与复杂疾病关系等的研究都具有重要作用。2.2疾病miRNA预测评价指标为了评估疾病关联miRNA预测模型的性能,通常采用交叉验证的方式来对模型的预测效果进行验证,其基本过程首先是将已知的miRNA-疾病关联分成两组,即训练集和测试集,随后利用训练集对分类模型进行训练,然后基于测试集对训练获得的模型进行评估。常见的交叉验证有留一交叉验证、K折交叉验证和Hold-Out交叉验证等。目前,多个指标可用于对预测结果进行评估,如ROC(receiveroperatingcharacteristiccurve)曲线或对应AUC(areaunderthecurve)值、精确度(precision)、召回率(recall)以及精确度-召回率(precious-recall,PR)曲线等。ROC曲线也称为感受性曲线(sensitivitycurve),它是以真阳性率(TPR,TruePositiveRate)为纵坐标、假阳性率(FPR,FalsePositiveRate)为横坐标所绘制的一条曲线,该曲线越靠近左上角表明预测结果准确性越高,即曲线下面积(AUC)越大时,计算模型的性能越优。AUC的值通常介于0.5和1之间,当AUC为116 博士学位论文时,说明分类器达到最佳效果。有关真阳性率TPR和假阳性率FPR计算公式如下:TPTPR(2.7)TPFNFPFPR(2.8)TNFP其中,TP(TruePositive,真阳性)表示被正确预测的正样本的个数,FN(FalseNegative,假阴性)表示正样本中没有被正确预测出的正样本的个数,TN(TrueNegative,真阴性)表示被正确识别出的负样本的个数,FP(FalsePositive,假阳性)表示负样本中没有被正确识别出的负样本的个数。除此之外,类似于ROC曲线,PR曲线也是一个用于预测性能评估的重要指标,该曲线中点的横坐标表示召回率,纵坐标表示精确率。其中,精确率(precision)是指预测为正的样本中真正的正样本所占的比率;召回率(recall)是指正样本中被正确预测的正样本所占的比例。TPPrecision(2.9)TPFPTPRecall(2.10)TPFN2.3相关数据库简介现代生物技术的迅猛发展积累了大量可供利用的数据,本节将对与本课题研究相关的一些常用数据库进行简单介绍,主要包括MeSH医学主题词表、miRNA-疾病关联相关数据库、分子相互作用或调控关系相关数据库等。(1)MeSH医学主题词表[89]医学主题词表(MedicalSubjectHeadings,MeSH),网站主页为https://www.nlm.nih.gov/mesh/,是由美国国立图书馆(NLM)编制的权威性主题词表,它是一部规范化的可扩充的动态性叙词表,目前包含有18,000多个医学主题词。为了便于系统化的对主题词进行检索和管理等,MeSH通过引入范畴表(CategoriesandSubcategories)的概念并将字顺表中的主题词以树形结构(Tree-structure)的形式进行归类,根据主题词所属学科的不同以及词义范围的差异等将这些主题词分为16个大类,包括Anatomy[A](解剖学)、Organisms[B](生物体)、Diseases[C](疾病)、ChemicalsandDrugs[D](化学物质与药物)、Analytical,DiagnosticandTherapeuticTechniques,andEquipment[E](分析、诊断、治疗技术与设备)、PsychiatryandPsychology[F](精神病学与心理学)等类别。其中,MeSH数据库中的C类Diseases(疾病)信息被广泛用于疾病语义相似性的计算,如图2.2所17 基于生物网络的致病miRNA预测及模块识别算法研究示,基于每种疾病对应的ID确定各种疾病之间的层次关系并构造相应的有向无环图,最终完成疾病之间相似性网络的构建。(2)疾病关联miRNA相关数据库目前,常用于疾病关联miRNA预测方法中的已知miRNA-疾病关联数据库有[31][30][99]HMDD、mir2disease、dbDEMC等,这些数据库中的关联信息大都通过实验方法得到了验证,同时,随着各种新的疾病关联miRNA的不断发现,这些数据库也正不断的被更新及完善。但是,当前已经得到实验验证的疾病miRNA仍然十分有限,因此,通过利用已有关联信息并采用机器学习、数据挖掘等手段来辅助发现新的疾病相关的miRNA成了一种不错的选择。HMDD(theHumanmiRNADiseaseDatabase)(http://www.cuilab.cn/hmdd)是最早建立的有关疾病-miRNA关联的数据库之一,此外也是疾病miRNA预测模型中使用最多的数据库,它由北京大学Cui等人于2007年开发建立,主要通过在PubMed数据库中搜索关键字并通过人工检索方式获得实验验证的关联数据,同时,对于同一种疾病对应多个名字或miRNA名称不规范等的情况也做了相应的规范化处理。当前,HMDDv2.0数据库收集了来源于3511篇文献中包含572个miRNA和378种人类疾病之间10368条实验验证的miRNA-疾病关联数据。此外,mir2disease数据库是哈尔滨工业大学Jiang等人于2008年建立,该数据包含了349个miRNA、163种人类疾病以及3273条miRNA-疾病关联(下载网址:http://www.mir2disease.org/)。dbDEMC(databaseofDifferentiallyExpressedMiRNAsinhumanCancers)是一个用于研究人类癌症中miRNA差异表达的相关数据库,它主要存储了通过高通量方法获得的在癌症中异常表达的miRNA,当前版本的dbDEMCv2.0(2017)包含了涉及36种癌症类型的2224个差异表达的miRNA,获取相关数据可访问网站[100][9]http://www.picb.ac.cn/dbDEMC。除此之外,还存在PhenomiR、miRCancer等多个疾病相关miRNA的数据库。(3)相互作用关系数据库生物信息学领域中,许多计算模型旨在挖掘海量数据中有价值的信息用于解释生物医学问题,而生物分子间相互作用或调控关系数据是其中比较常用的数据源之一,它在致病因子预测、功能模块识别、生物模体发现、药物重定位等诸多研究领域都有着广泛的应用。其中,常用的miRNA靶基因调控关系的数据库有[97][98][13][96][101]miRecords、miRTarBase、TarBase、TargetScan、PITA等,这些数据涉及了人类、大鼠、小鼠、果蝇等多种不同物种的信息,其中miRecords、miRTarBase、TarBase三个数据库中包含的人类miRNA靶标数据主要基于实验验证手段获得,而TargetScan、PITA等相关数据库由于采用预测手段获取miRNA-靶基因作用关系,相对实验验证数据库而言具有较高的假阳性,因此,为了提高模型的预测精度,后续章节中所使用的有关miRNA靶基因的调控关系均来源于实验验证数据18 博士学位论文库。此外,随着ceRNA假设的提出,对于lncRNA、circRNA等非编码RNA分子的关注度不断增大,基于大规模的ceRNA网络同时采用数学建模的方式来认识复[102][103]杂的调控模式很有必要,目前,DIANA-LncBase、starBase等数据库中均收集了大量有关lncRNA等分子间相互作用的数据。DIANA-LncBase主要包含了人类和小鼠两种不同物种的miRNA-lncRNA相互作用,这些作用关系由实验支撑的以及计算方法预测的两种类型数据组成;starBase数据库则包含了miRNA-lncRNA、miRNA-mRNA、miRNA-circRNA和RNA-protein等多种不同类型的调控关系,是目前整理的且涉及多种调控关系的最为全面的数据库之一。2.4本章小结本节首先对基于生物网络的疾病关联miRNA预测模型中常用的相似性网络构建方法进行了介绍,主要包括疾病相似性网络的构建和miRNA相似性网络的构建两种,并介绍了疾病miRNA预测模型中常用的评价指标,最后对本课题所涉及的主要数据资源进行了介绍,为后续基于生物网络发现疾病关联miRNA和识别模块奠定了理论基础。19 基于生物网络的致病miRNA预测及模块识别算法研究第3章基于二分子图和非平衡随机游走的疾病miRNA预测算法3.1引言MicroRNA(miRNA)作为一种重要的调控因子,它主要通过在后转录水平抑制mRNA的翻译或致使mRNA降解来行使其生物功能,大量研究表明miRNA[61,95]在许多生物过程中扮演者重要的角色,如细胞增殖、新陈代谢、肿瘤发生等。此外,研究发现miRNA的变异或异常表达能够直接或间接地影响靶基因的表达,从而致使生物体内许多相应的调控通路或生物过程出现异常而导致癌症等复杂疾病产生。然而,采用生物实验的方法来识别疾病相关的miRNA是一件非常耗时且开销巨大的工作,因此,从当前丰富的生物医学数据资源中识别与疾病潜在相关的miRNA将有助于降低成本和提高相关生物医学研究者的效率,对于揭示疾病的发病机理和推动疾病的预防、诊断和治疗等意义深远。目前,癌症等复杂疾病是导致人类死亡的主要原因之一,据世界卫生组织报告显示,每年有超过880万患者死于癌症,新发癌症病例超过1400万,而死于非传染性疾病的人数则占到了全球死亡总人数的70%(4000万),同时这些数据正在逐年不断增加,因而有关癌症等复杂疾病的相关课题一直是生物医学领域研究的热点之一。近年来,随着对疾病研究投入的不断加大以及研究的不断深入,已经取得了许多显著成果,但是,对于彻底揭示癌症的发病机理并最终治愈癌症,仍然还有很漫长的道路需要走。随着大量未知的miRNA、lncRNA、假基因等生物分子在不同物种中被识别以及各种新型疾病的不断涌现,纯粹依靠生物实验探索分子未知生物功能及疾病发生本质等问题的方式已无法满足现实需要,迫切需要借助其他辅助手段来提高探索各种生命问题的速度,而当前大量公开可供免费使用的蛋白质组学、基因组学、转录组学、代谢组学以及癌症相关数据等资源,正好为加快癌症生物标志物的识别、药物靶标的发现等研究的进程创造了条件。miRNA作为一类重要的导致疾病产生的非编码RNA分子,借助生物信息学方法来识别与疾病潜在相关的miRNA能够为相关生物学实验更好地指明方向。因此,基于生物网络固有的拓扑特征及不同网络间结构差异性的考虑,本章提出了一种基于环状二分子图CBG(circularbipartitegraph)和非平衡随机游走的疾病miRNA预测模型BRWH。该模型首先通过对所构建的包含了疾病相似性网络、miRNA相似性网络和miRNA-疾病已知关联网络所组成的异构网络的拓扑20 博士学位论文结构进行了分析,得出了大部分已知miRNA-疾病关联被不同规模的CBG子图所覆盖的假设,随后基于该假设采用非平衡随机游走的策略识别与疾病潜在相关的miRNA。最后,通过与经典算法进行比较及文献挖掘等方式,有效验证了BRWH算法的有效性。3.2相关工作目前,研究者们已提出了多种算法用于揭示miRNA与疾病之间的潜在关联,并通过生物实验的方式来验证所预测的候选miRNA与疾病之间的真正关系。众所周知,miRNA通过其调控的目标基因来行使它们的生物学功能,因此,多个基于miRNA靶基因的计算模型被提出用于疾病关联miRNA的识别。2010年,Jiang等人首先从PITA、TargetScan等靶基因预测工具获得miRNA-靶基因调控关系,并基于调控的公共靶基因对任意两个miRNA之间的相似性进行评估,随后结合疾病表型相似性构建有关phenome-microRNAome的异构网络,并采用累计超几[66]何分布方法识别疾病相关的潜在miRNA。2011年,Li等人通过度量miRNA靶基因集与现有疾病基因之间的功能一致性分值(functionalconsistencyscore,FCS),从而评估miRNA与这些特定疾病之间的关联性概率分值,该方法能够用[68]于肺癌、乳腺癌等11中常见人类疾病相关miRNA的预测。随后,Shi等人通过将miRNA靶基因和疾病相关基因映射到蛋白质相互作用网络,并分别以这些基因为种子节点进行随机游走,随后对稳定状态获得的分布向量进行富集分析确[104]定miRNA与疾病之间的关联性得分。以上方法均采用了miRNA靶基因相关信息来进行疾病相关miRNA的预测,然而,由于这些miRNA靶基因信息都是基于预测方式获得,因而具有较高的假阳性,对计算模型的预测性能和精度均存在着一定影响。研究表明,功能相似的miRNA通常与表型相似的疾病存在关联,反之亦然[69,105]。为了进一步提高疾病miRNA预测的准确性,多种基于相似性网络的预测模型被提出。2012年,Chen等人提出了一种推断miRNA-疾病潜在关联的方法RWRMDA,不同于传统的基于局部相似性(如K近邻等)的评估方式,该方法采用全局网络相似性的度量思想,首先利用第二章所介绍Wang等人的相似性计算方法构建了miRNA功能相似性网络,并将已知的疾病相关miRNA作为种子节点映射到该相似性网络中,随后采用重启随机游走策略获得稳定状态的概率向量[106]用于评估各miRNA与特定疾病之间的关联性大小。2013年,Xuan等人基于改进的miRNA相似性评估策略提出了疾病相关miRNA的预测模型HDMP,该方法通过结合miRNA家族(family)或簇(cluster)信息,并基于加权k近邻的方[70]法来识别潜在的疾病相关的miRNA。此外,2014年,Chen等人提出了一种基于半监督学习的方法RLSMDA,该方法有效地整合了疾病相似性、miRNA相似21 基于生物网络的致病miRNA预测及模块识别算法研究性以及已知miRNA-疾病关联信息来预测疾病候选miRNA并取得了好的预测效果[57];此外,Xuan等人在2015年提出了基于相似性网络的新方法MIDP和MIDPE[107]用于推断潜在的miRNA-疾病关联。综上所述,以上各种疾病相关miRNA预测模型的提出有助于促进疾病的进一步研究。然而,当前有关疾病miRNA的研究仍处于初期阶段,各种算法的预测性能和精度仍有待于进一步提高,同时基于生物网络的预测模型大都忽视了对网络拓扑特征以及不同网络(如miRNA相似性网络和疾病相似性网络)结构差异性的考虑,针对这种情况本章提出了一种基于二分子图模式的疾病miRNA识别算法BRWH。3.3基于二分子图和非平衡随机游走的疾病miRNA预测算法BRWH3.3.1BRWH算法框架BRWH算法主要包含三个步骤:首先,基于MeSH疾病DAG图和miRNA-疾病已知关联信息评估疾病与疾病之间、miRNA与miRNA之间的相似性,并完成异构网络的构建;随后,通过对异构网络的拓扑结构进行分析,统计HMDD数据库中包含的已知miRNA-疾病关联被环状二分子图(circularbipartitegraph,CBG)覆盖的情况,并根据统计结果提出了未知miRNA-疾病关联可能也被不同规模的CBG子图所覆盖的生物假设条件;最后,采用非平衡随机游走的方式来发现潜在的疾病关联miRNA。BRWH算法的具体流程如图3.1所示。3.3.2异构生物网络构建BRWH算法首先需要构建一个包含了疾病-疾病相似性网络、miRNA-miRNA相似性网络以及miRNA-疾病已知关联的异构网络。如2.1节所述,Wang等人基于MeSH医学主题词表中不同疾病所对应DAG的层次结构来评估疾病之间的语义相似性。在Wang方法中,若两种疾病(如图2.2中“EyeNeoplasms”和“UvealDiseases”)距离第0层疾病(“ChoroidNeoplasms”)的层次相同,那么这两种疾病对第0层疾病的语义贡献值也会一样,即位于第k层的疾病对第0层疾病的语k义贡献均为0.5(△=0.5)。基于信息论思想,通常如果一种疾病的描述越具体,那么这种疾病描述所包含的信息量就越大。例如,在疾病“ChoroidNeoplasms”对应的DAG图中,“EyeNeoplasms”和“UvealDiseases”两种疾病所处的层次相同,但是,“EyeNeoplasms”总共出现在了10种疾病对应的DAG图中,而“UvealDiseases”则总共出现在了37种疾病对应的DAG图中,由于前者所出现的疾病DAG图中的次数要少,故前者要比后者更细化,所包含的信息量也要更多。因此,Wang方法中仅考虑疾病层次结构的语义相似计算方式是不准确的。22 博士学位论文MeSHHMDDMeSHdiseaseDAGKnownmiRNA-diseasestructureassociationsDIN…DiseaseAMDANDsim(A,B)DiseaseB…MINdiseaseMsim(x,y)Step1:calculatesimilarityformiRNAdiseasesandmiRNAs,andthenmiRNAxmiRNAyconstructtheheterogeneousnetworkassociationstopredictCircularbigraphpatternspathMINDIN?length=1?path??length=2pathlength=3Step2:predictionofpotentialassociationspath……miRNA-diseaseassociationmatrixPlength=n……D1D2D3D4D5…M10.3520.0130.2020.3120.419candidatemiRNAsrankingfordiseasedM20.2780.0010.0050.1170.25210.35230.407M30.0540.1610.2780.4020.363M40.6890.3270.1030.1060.00820.05410.352M50.4070.0170.0150.0230.19230.4070.112…M60.0120.1030.2030.3710.136nM70.2010.0260.0120.0050.415…………n0.11220.054图3.1BRWH算法流程图针对这种情况,BRWH算法将充分考虑疾病描述在所有DAG图中出现的概率的情况,采用优化后的疾病语义相似性方法来构建疾病相似性网络。若一种疾病t在所有疾病DAG图中出现的概率为p(t),则疾病t对应的信息量(informationcontent,IC)为:IC()tlog[()]pt(3.1)如2.1节所述,疾病A对应的基于信息量的语义值DVIC(A)可通过如下公式计算:DV()ICAtIC()A(3.2)tTA()23 基于生物网络的致病miRNA预测及模块识别算法研究其中,T(A)表示疾病A对应DAG图中所有疾病节点的集合。通过综合考虑MeSH中疾病对应DAG的层次结构以及所包含信息量,则疾病A和B之间的语义相似性可通过以下新的计算公式获得:C*tTA()TB()(DtA()DtB())(1C)*tTA()TB()(ICtA()ICtB())DsimAB(,)(3.3)DVA()DVB()其中,DV()tC*DV()(1tC)*DV()t,C为权值系数,C∈[0,1]。当C=1时,公IC式3.3的计算方法即转化为Wang的疾病语义相似性计算方法。通过采用公式3.3中方法对任意两疾病之间的语义相似性进行计算,即可完成疾病-疾病相似性网络的构建。随后,基于计算获得的疾病语义相似性信息,采用2.1节中介绍的MISIM方法对任意两个miRNA之间的功能相似性进行评估,从而获得miRNA-miRNA相似性网络。最终,由疾病-疾病相似性网络、miRNA-miRNA相似性网络和已知miRNA-疾病关联实现异构网络的构建。3.3.3二分子图统计分析疾病相关miRNA的预测问题可以形式化的转化为对疾病相似性网络和miRNA相似性网络之间节点映射关系的查找问题。在疾病相似性网络中,语义相似的两种疾病倾向于映射到miRNA相似性网络中的同一节点;同理,在miRNA相似性网络中,功能相似的两个miRNA也可能倾向于与疾病相似性网络中的同一节点存在关联。通常,若相似性网络中两个节点之间存在着一条长度为k的路径,且路径上任意节点与其直接邻居之间均具有很强的相似性,那么这两个节点也极有可能相似。在异构网络中,假设存在一条疾病-miRNA已知关联,那么,以该边的两个端点为起始节点,分别在疾病相似性网络和miRNA相似性网络中随机游走若干步后,就可得到一些疾病与miRNA的映射关系。通过将两个相似性网络上游走的两条路径以及它们端点之间对应的两条映射关系,即可构成一个环状二分子图(circularbipartitegraph,CBG),如图3.2所示。一个CBG子图包含了疾病路径和miRNA路径两条路径,本文中CBG的路径长度是指这两条路径中较长的那条路径的长度。基于所构建的异构网络,通过统计已知miRNA-疾病关联被不同规模GBG子图覆盖的情况发现,HMDD实验数据中66.98%的已知关联至少被一个路径长度为1的CBG子图所覆盖;当CBG的路径长度增长到2和3时,这一比率分别上升到了94.06%和97.04%;当CBG的路径长度达到5时,有超过99%的已知miRNA-疾病关联被覆盖。由此可知,除了疾病和miRNA的直接邻居点外,与其相距k层的邻居节点也有助于miRNA与疾病之间潜在关联的发现。同时,通过实验分析发现,由于疾病相似性网络和miRNA相似性网络拓扑结构的差异性,CBG子图中包含的疾病路径和miRNA路径的长度通常是不一致的,因此,针对网络结24 博士学位论文构的差异性选择合适的步长尤为重要。相关的统计分析结果将在后续实验部分进行讨论。Circularbigraphpatternspathlength=1pathlength=2pathlength=3path……diseaselength=n……miRNA图3.2CBG环状二分子图示例3.3.4非平衡随机游走模型通过以上分析,BRWH算法基于所构建网络的拓扑特性,并充分利用疾病相似性网络和miRNA相似性网络中各节点不同层次的邻居信息来预测miRNA-疾病潜在关联。为了形式化的对BRWH算法进行描述,首先将对一些相关变量进行定义。定义3.1给定D(m*m)为疾病相似性网络的关联矩阵,其元素d(i,j)表示按列标准化的两种疾病的相似性值,具体定义如下:DSim(,)ijifDSim(,)kj0dij(,)DSim(,)kjkWd(3.4)kWd0otherwise其中,Wd表示疾病j的邻居节点的集合。DSim(i,j)表示由公式3.3计算获得的疾病i和疾病j之间的语义相似性值。定义3.2给定M(n*n)为miRNA相似性网络的关联矩阵,其元素m(i,j)表示按列标准化的两个miRNA的相似性值,具体定义如下:MSim(,)ijifMSim(,)kj0mij(,)MSim(,)kjkWm(3.5)kWm0otherwise其中,Wm表示miRNAj的邻居节点的集合。MSim(i,j)表示通过Wang方法计算获得的miRNAi和miRNAj之间的功能相似性值。25 基于生物网络的致病miRNA预测及模块识别算法研究定义3.3给定A(n*m)为已知miRNA-疾病之间的关联矩阵,若miRNAi与疾病j之间存在已知关联,则元素A(i,j)的值为1,否则为0。BRWH算法旨在基于矩阵D、M和A获得有关miRNA与疾病之间潜在关联的概率分值。如前面所述,一个miRNA可能与多种相似疾病以及它们的k层邻居存在关联,同样,一种疾病也可能与多个功能相似的miRNA以及它们的k层邻居存在联系。因此,为了利用miRNA和疾病的直接邻居或k层邻居信息来帮助预测疾病相关的miRNA,通过将存在已知关联的miRNA和疾病作为种子节点,并分别以不同步长的方式在疾病相似性网络(DIN)和miRNA相似性网络(MIN)进行非平衡随机游走,随后基于稳定状态的信息来识别潜在的与疾病相关的miRNA。具体过程可形式化如下:DIN:P(1)*P*D*A(3.6)tt-1MIN:P(1)*MP**A(3.7)tt-1由公式3.6和3.7可以看出,在DIN和MIN网络中,从各自种子节点出发,通过迭代地分别右乘D和左乘M来扩展疾病路径和miRNA路径,从而基于环状二分子图模式获得一些miRNA-疾病的潜在关联信息。其中,t(=1,2,…)表示迭代步数,ɑ(0<ɑ<1)为重启游走概率,A为已知miRNA-疾病关联矩阵,它作为先验知识来控制迭代过程,Pt表示t时刻的概率矩阵,P0表示初始概率,其值P0=A/sum(A)。理论上,经过一定迭代步数以上过程最终可以达到稳态,稳定状态时的概率矩阵即可用于miRNA与疾病之间的关联性评估。考虑到疾病相似性网络(DIN)和miRNA相似性网络(MIN)的网络稠密度等拓扑特征存在差异,因此,本文模型通过设置不同最优步长(L1和L2)的方式来获得更好的预测效果。最后,针对某种特定疾病d,排名越高的候选miRNA与疾病d存在关联的可能性就越大。BRWH模型的详细描述见算法3.1。3.4实验及结果分析3.4.1实验数据来源实验过程中主要用到了以下主要数据:(1)用于疾病语义相似性计算的MeSH[89]医学主题词表中的C类疾病数据,从MeSH主页(https://www.nlm.nih.gov/mesh/)中下载获得;(2)用于miRNA相似性评估和疾病相关miRNA预测的实验验证[31]miRNA-疾病关联数据,从HMDD数据库(2014年6月更新版本)(http://www.cuilab.cn/hmdd)中下载获得,通过将同一miRNA成熟体对应的多个miRNA前体进行合并,并删除疾病名称不规范及无效关联数据后,总共包含了491个miRNA、326种疾病以及5100已知miRNA-疾病关联;(3)用于对预测结果进行验证的已26 博士学位论文算法3.1:BRWH算法Input:MeshdiseaseDAGsandadiseasedenotedasDAG(D)=(D,T(D),E(D)),knownmiRNA-diseaseassociationmatrixA,parametersC,ɑ,L1,andL2Output:PredictedassociationmatrixP1.V{,...,dd};//VisthediseasesetinHMDD1k2.U{,...,mm};//UisthemiRNAsetinHMDD1t3.CalculatethesemanticvalueforeachdiseaseinV;4.foreachdiseasepair,d,dVdo//calculatesimilarityforeachdiseasepairij5.ifdianddjshareapartoftheirDAGs6.calculatethesimilarityDSim(di,dj);7.else8.Dsim(d,d)0;ij9.endif10.endfor11.foreachmiRNApair,m,mUdo//calculatesimilarityforeachpairofmiRNAsij12.ifmiandmjhaveacommonsetofassociateddiseases13.calculatethesimilarityMSim(mi,mj);14.else15.Msim(m,m)0;ij16.endif17.endfor18.APA;0sum()A19.constructthetransitionmatrixD,DSim(,)ijifDSim(,)kj0dij(,)DSim(,)kjkWdkWd0otherwise20.constructthetransitionmatrixM,MSim(,)ijifMSim(,)kj0mij(,)MSim(,)kjkWmkWm0otherwise21.fort=1tomax(L1,L2)do//predictmiRNA-diseaseassociationsbyunbalancedbi-randomwalk22.r1=r2=0;23.if(t<=L1)24.P(1)*P*D*;AtD_1t25.r1=1;26.endif27.if(t<=L2)28.PtM_(1)*M*Pt-1*;A29.r2=1;30.endif31.Pt(*rP1t_Mr2*PtD_)/(rr);1232.endfor33.ReturnPt.[30]知miRNA-疾病关联数据,主要从mir2disease(http://www.mir2disease.org/)、27 基于生物网络的致病miRNA预测及模块识别算法研究[108]dbDEMC(http://www.picb.ac.cn/dbDEMC)下载获得。3.4.2实验结果分析为了验证算法的有效性和对算法的性能进行评估,本节将首先对异构网络的全局属性或拓扑结构等进行分析,并统计网络中已知关联被环状二分子图CBG的覆盖情况;随后,基于ROC曲线等指标来评估BRWH与比较算法的性能;最后,采用案例分析的方式对几种常见癌症的预测结果进行分析验证。(1)网络拓扑结构分析在由已知miRNA-疾病关联组成的二分网络中,通过对节点的度分布情况进行分析发现,网络中超过74.5%的miRNA至少与两种疾病存在关联,同时74.9%的疾病至少与两个不同的miRNA存在着联系,这表明复杂疾病与miRNA之间不是简单的一对一的作用关系,通常一种疾病的产生是由两个或多个miRNA共同作用的结果。此外,如图3.3所示,miRNA和疾病的度分布显示出了miRNA-疾病关联网络具有一般复杂网络无标度的特性,即网络中大部分节点与其他节点的联系较少,而少部分节点与其他节点则有较为紧密的联系。在miRNA相似性网络和疾病相似性网络中,考虑到部分节点之间的相似性分值较小甚至接近于0,为了更好的统计网络中已知关联被CBG子图的覆盖情况,[109,110]在分析CBG子图过程中,参照文献,本文将选取与miRNA或疾病最相似的5个节点作为邻居节点进行统计分析。如表3.1所示,在5100条已知miRNA-疾病关联中,有3416(66.98%)和1381条(27.08))关联分别被路径长度为1和2的CBG子图所覆盖。当路径长度增长到8时,网络中所有已知miRNA-疾病关联至少被一个路径长度为1~8的不同CBG子图所覆盖。另外,为了更进一步的分析与某种特定疾病存在已知关联的边的覆盖情况,表3.2对已知关联数大于60的22种疾病的CBG子图覆盖情况进行了统计,结果同样显示这些疾病的大部分已知关联被路径长度为1~3的CBG子图覆盖,其中当路径长度增长到3时,13种疾病的已知关联被CBG覆盖的比率达到了100%。0.8261.084yx38.937yx116.1922R0.793R0.852numberofmiRNAsnumberofdiseases020406080100120010203040506070800102030405060708090100110020406080100120140160180200220degreedegree(a)DegreedistributionofmiRNA(b)Degreedistributionofdisease图3.3已知miRNA-疾病关联网络中miRNA和疾病的度分布情况28 博士学位论文表3.15100条已知miRNA-疾病关联被CBG子图覆盖情况统计结果CGBCBGCBGCBGCBGCBGCBGCBGCBGTotalpatternsLen=1Len=2Len=3Len=4Len=5Len=6Len=7Len=8Assoc#Assoc#34161381152408520135100表3.2不同疾病已知miRNA-疾病关联被CBG子图覆盖情况统计CBGCBGCBGCoverageCoverageCoverageDiseasenameLen=1Len=2Len=3CBG1CBG1~2CBG1~3BreastNeoplasms10773552.97%89.11%91.58%Carcinoma,Hepatocellular100831446.73%85.51%92.06%Carcinoma,Non-Small-CellLung5932462.11%95.79%100.00%Carcinoma,RenalCell5932655.14%85.05%90.65%Carcinoma,SquamousCell5624070.00%100.00%100.00%ColonicNeoplasms5420469.23%94.87%100.00%ColorectalNeoplasms8349656.46%89.80%93.88%Endometriosis3724159.68%98.39%100.00%EsophagealNeoplasms4720763.51%90.54%100.00%Glioblastoma5534757.29%92.71%100.00%Glioma3930054.93%97.18%97.18%HeadandNeckNeoplasms4221165.63%98.44%100.00%HeartFailure6944757.50%94.17%100.00%Leukemia,Myeloid,Acute4816075.00%100.00%100.00%LungNeoplasms9040268.18%98.48%100.00%Medulloblastoma3623358.06%95.16%100.00%Melanoma9539767.38%95.04%100.00%OvarianNeoplasms8032170.18%98.25%99.12%PancreaticNeoplasms7123571.72%94.95%100.00%ProstaticNeoplasms7131060.17%86.44%86.44%StomachNeoplasms9167052.60%91.33%91.33%UrinaryBladderNeoplasms5423258.70%83.70%85.87%(2)比较结果分析[107][107]采用五折交叉验证的方式来比较BRWH算法与MIDP、MIDPE、[106]RWRMDA算法的性能。在五折交叉验证中,针对特定疾病d,首先将其已知miRNA-疾病关联随机分成五等份,其中四份作为训练集,剩下一份作为测试集,依次轮换进行实验,并计算每次实验的TPR(TruePositiveRate)、FPR(FalsePositiveRate)等指标,随后根据所画ROC(receiveroperatingcharacteristiccurve)曲线或对应AUC(areaunderthecurve)值来评估算法的整体性能。由于大部分疾病关联的miRNA较少,因此,为了综合评估各算法的性能,参照比较算法,将选取已知关联大于60的22种常见疾病进行实验。BRWH算法包含了四个参数C、ɑ、L1和L2,其中C为疾病相似性计算时的权值系数,ɑ用于控制已知miRNA-疾病关联在整个迭代过程中的权重,L1和L2分别为疾病相似性网络和miRNA相似性网络上的游走步长。通过对不同组合的参数进行实验分析,如表3.3所示,最终四个参数分别设置为C=0.4、ɑ=0.4、L1=229 基于生物网络的致病miRNA预测及模块识别算法研究和L2=1。此外,三种比较算法均采用Wang的相似性计算方法来评估疾病或miRNA之间的相似性,考虑到BRWH算法中相似性计算公式3.3中将C设置为1即可转换为Wang方法的计算方式,为了确保比较算法获得更好的预测性能,对这三种算法的相似性计算均采用改进后的评估策略。在实验过程中,三种比较算法均采用默认参数值(即RWRMDA:C=0.4和r=0.9;MIDP:C=0.6、rQ=0.4和rU=0.1;MIDPE:C=0.4、α=0.9和γ=0.8)表3.3不同参数组合对BRWH预测性能的影响(a)ɑ=0.4,L1=2andL2=1(b)C=0.4,L1=2andL2=1CAverageAUCɑAverageAUC00.81216500.6603430.10.8416490.10.8247460.20.8429770.20.8434270.30.8334650.30.8414020.40.8458610.40.8458610.50.8450440.50.8409970.60.8439090.60.8332700.70.8323370.70.8236390.80.8336220.80.8419250.90.8013520.90.83172810.78423010.666388(c)C=0.4,ɑ=0.4andL2=1(d)C=0.4,ɑ=0.4andL1=2L1AverageAUCL2AverageAUC10.66698510.84586120.84586120.83776630.83558330.83124940.83204540.83155050.83099550.83357360.83111560.83790070.82937870.83208580.82937980.83405290.83029490.838265图3.4BRWH算法和比较算法ROC曲线30 博士学位论文表3.4基于五折交叉验证实验各算法AUC值比较No.ofassociatedAUCDiseasenamemiRNAsBRWHMIDPMIDPERWRMDABreastNeoplasms2020.8150.8120.8080.789Carcinoma,Hepatocellular2140.7830.7680.7570.733Carcinoma,Non-Small-CellLung950.8700.8510.8460.820Carcinoma,RenalCell1070.8260.7970.8060.783Carcinoma,SquamousCell800.8900.8660.8830.842ColonicNeoplasms780.8590.8440.8460.824ColorectalNeoplasms1470.8400.8170.8050.799Endometriosis620.8280.8250.8070.790EsophagealNeoplasms740.8000.7710.7790.755Glioblastoma960.8250.8090.8120.786Glioma710.8950.8690.8720.866HeadandNeckNeoplasms640.8780.8650.8690.856HeartFailure1200.8100.7840.7870.775Leukemia,Myeloid,Acute640.8430.8490.8440.795LungNeoplasms1320.9070.8970.8950.867Medulloblastoma620.8120.8080.8060.793Melanoma1410.8350.8260.8170.801OvarianNeoplasms1140.8980.8860.8770.870PancreaticNeoplasms990.9040.8950.8890.873ProstaticNeoplasms1180.8570.8290.8270.800StomachNeoplasms1730.7820.8000.7710.759UrinaryBladderNeoplasms920.8540.8390.8280.834NormalQ-QPlotNormalQ-QPlotSampleQuantilesSampleQuantiles0.780.820.860.900.780.820.860.90-2-1-20-11TheoreticalQuantilesTheoreticalQuantiles(a)(b)NormalQ-QPlotNormalQ-QPlotSampleQuantilesSampleQuantiles0.760.820.880.740.800.86-2-1-20-11TheoreticalQuantilesTheoreticalQuantiles(c)(d)图3.5(a)BRWH、(b)MIDP、(c)MIDPE和(d)RWRMDAAUC值QQ图从图3.4可知,针对22种疾病,BRWH、MIDP、MIDPE和RWRMDA四种算法的平均AUC值分别为0.8459、0.8320、0.8287和0.8095,BRWH算法的31 基于生物网络的致病miRNA预测及模块识别算法研究性能相对其他三种比较算法分别提高了1.39%、1.72%和3.64%。此外,从表3.4可以发现,22种疾病中有20种疾病的AUC值均要高于比较算法MIDP、MIDPE和RWRMDA。随后,首先基于Shapiro-Wilks测试来检验这些AUC值是否服从正态分布,结果如图3.5,然后利用配对t检验方式来评估BRWH算法的性能与其他比较算法是否存在显著性差异,如表3.5,结果表明BRWH算法的性能要显著性优于其他算法(p-vale<0.05)。表3.5BRWH与三种比较算法配对t检验结果MIDPMIDPERWRMDAP-valuebetweenBRWH2.15E-058.60E-093.97E-13andanothermethod表3.6BRWH预测的排名前50个与肺癌潜在相关miRNARankmiRNAnameEvidenceRankmiRNAnameEvidence1hsa-mir-130adbDEMC,miR2Disease26hsa-mir-204miR2Disease2hsa-mir-151aPMID:2230339827hsa-mir-129PMID:223033983hsa-mir-16dbDEMC,miR2Disease28hsa-mir-23bdbDEMC4hsa-mir-193bdbDEMC29hsa-mir-20bdbDEMC5hsa-mir-302bdbDEMC30hsa-mir-367PMID:228356086hsa-mir-106bdbDEMC31hsa-mir-302ahigherRWRMDA(No.22)7hsa-mir-195dbDEMC,miR2Disease32hsa-mir-92bPMID:223529178hsa-mir-451adbDEMC,miR2Disease33hsa-mir-320ahigherMIDP(No.33)9hsa-mir-139dbDEMC34hsa-mir-328dbDEMC10hsa-mir-296dbDEMC35hsa-mir-452PMID:2534142611hsa-mir-15adbDEMC36hsa-mir-302ddbDEMC12hsa-mir-429dbDEMC,miR2Disease37hsa-mir-449aPMID:2373421713hsa-mir-149dbDEMC38hsa-mir-345dbDEMC14hsa-mir-302cdbDEMC39hsa-mir-342dbDEMC15hsa-mir-625PMID:2267553040hsa-mir-339dbDEMC16hsa-mir-99adbDEMC,miR2Disease41hsa-mir-153dbDEMC17hsa-mir-708PMID:2257335242hsa-mir-122higherHDMP(No.19)18hsa-mir-378aPMID:2233147343hsa-mir-130bdbDEMC19hsa-mir-141dbDEMC,miR2Disease44hsa-mir-148bdbDEMC20hsa-mir-152dbDEMC45hsa-mir-211PMID:2317286221hsa-mir-10adbDEMC46hsa-mir-372miR2Disease22hsa-mir-15bdbDEMC47hsa-mir-196bdbDEMC23hsa-mir-215dbDEMC48hsa-mir-449bdbDEMC24hsa-mir-194PMID:2230339849hsa-mir-99bPMID:1653070325hsa-mir-373higherHDMP(No.36)50hsa-mir-208aUnconfirmed(3)案例分析为了进一步验证BRWH算法识别潜在miRNA-疾病的能力,通过选取几种常见癌症作为研究对象,通过案例分析来进一步说明预测结果的可靠性。首先,将32 博士学位论文所有已知miRNA-疾病关联作为先验信息用于预测,随后,针对某一特定疾病的预测结果采用数据库或文献挖掘的方式确定这些候选miRNA是否与该种疾病确[111]实存在关联,这里主要采用实验验证的miRNA-疾病关联数据库mir2disease[99]和dbDEMC来对预测结果进行验证。表3.7BRWH预测的排名前50个与前列腺癌潜在相关miRNARankmiRNAnameEvidenceRankmiRNAnameEvidence1hsa-mir-10bdbDEMC26hsa-mir-497miR2Disease2hsa-mir-9dbDEMC27hsa-mir-149dbDEMC3hsa-mir-135aPMID:2451733828hsa-mir-29cdbDEMC4hsa-mir-199bdbDEMC,miR2Disease29hsa-mir-103adbDEMC,miR2Disease5hsa-mir-138PMID:2451733830hsa-mir-451aUnconfirmed6hsa-mir-210miR2Disease31hsa-mir-181adbDEMC,miR2Disease7hsa-mir-139PMID:2274523132hsa-mir-338dbDEMC8hsa-mir-302bdbDEMC33hsa-mir-30amiR2Disease9hsa-mir-18bPMID:2338398834hsa-mir-219dbDEMC10hsa-mir-429higherHDMP(No.6)35hsa-mir-19bdbDEMC,miR2Disease11hsa-mir-196adbDEMC36hsa-mir-10adbDEMC12hsa-mir-142higherHDMP(No.18)37hsa-mir-129dbDEMC13hsa-let-7gdbDEMC,miR2Disease38hsa-mir-367dbDEMC14hsa-let-7idbDEMC39hsa-mir-302adbDEMC15hsa-mir-18ahigherHDMP(No.3)40hsa-mir-365bPMID:2122434516hsa-mir-125adbDEMC,miR2Disease41hsa-mir-26bdbDEMC,miR2Disease17hsa-mir-7dbDEMC42hsa-mir-137dbDEMC18hsa-mir-302cdbDEMC43hsa-mir-20bhigherHDMP(No.33)19hsa-let-7fdbDEMC,miR2Disease44hsa-mir-155PMID:2533936820hsa-mir-19adbDEMC45hsa-mir-365aPMID:2122434521hsa-mir-215dbDEMC46hsa-mir-499aPMID:1925252422hsa-mir-192dbDEMC47hsa-mir-302ddbDEMC23hsa-mir-24dbDEMC,miR2Disease48hsa-mir-140dbDEMC24hsa-mir-625PMID:2298240849hsa-mir-542PMID:2298240825hsa-let-7edbDEMC50hsa-mir-128higherHDMP(No.49)肺癌是当前全球最常见的且导致人类大量死亡的恶性肿瘤之一,在所有男性恶性肿瘤患者中因肺癌而导致死亡的人数居于首位。然而,目前对于肺癌的发病机制仍然不是很清楚,依然没有切实可行的治疗手段来保障患者最终痊愈。从HMDD数据库中收集的信息可以看出,当前收集的与肺癌等复杂疾病的已知关联miRNA仍十分有限,大量的miRNA无法获知其是否与肺癌等疾病的产生存在联系,因此,若能借助生物信息的方法来发现可靠的潜在致病miRNA,这将有助于加快miRNA与疾病相关课题的研究进程。从表3.6可以发现,在预测的前50个肺癌相关的潜在miRNA中,有31个miRNA已经被dbDEMC数据库证实与肺癌[112][113]相关,如has-mir-452、has-mir-122等,这些miRNA在肺癌的产生过程中出现失调。同时,有9个候选miRNA被miR2Disease数据库确认与肺癌相关。另33 基于生物网络的致病miRNA预测及模块识别算法研究外,通过文献挖掘的方法发现如hsa-mir-151a、hsa-mir-625等也与肺癌存在着一[70]定联系。此外,BRWH预测的候选miRNA在RWRMDA、MIDP、HDMP等算法的预测结果中同样具有较高的排名,如hsa-mir-106b、hsa-mir-302c、hsa-mir-296和hsa-mir-302b在BRWH预测排名列表中分别为第6位、第14位、第10位和第5位,而在RWRMDA算法的排名列表中分别为第2位、第12位、第14位和第16位,在MIDP算法预测结果中则分别为第8位、第16位、第12位和第4位,这些也间接说明BRWH算法预测疾病相关miRNA的有效性。针对前列腺癌的预测情况,表3.7给出了BRWH算法预测的排名前50的miRNA列表。从表中可以发现,分别有31和12个预测的候选miRNA在dbDEMC和miR2disease数据库中得到直接验证;同时,10个候选miRNA被文献验证发现其在前列腺癌发生过程中出现失调现象。另外,部分预测的miRNA在算法HDMP的结果列表中同样具有较高排名,如BRWH算法中排名前50的miRNAhsa-mir-429、hsa-mir-142、hsa-mir-18a、hsa-mir-20b和hsa-mir-128在HDMP算法的预测结果类别中分别排在第6位、第18位、第3位、第33位和第49位。从以上结果可以看出,BRWH算法的预测结果大多可以通过在线数据库或文献中得到验证,这在一定程度上也表明该算法预测的潜在疾病相关的miRNA具有一定的应用和参考价值。3.5本章小结本章主要针对异构生物网络的拓扑特征,同时基于miRNA-疾病关联可能会被不同路径长度的环状二分子图所覆盖的假设条件,提出了一种基于二分子图和非平衡随机游走的miRNA-疾病关联预测算法BRWH。本章首先从生物网络的构建着手,通过利用不同的数据源分别评估了疾病之间、miRNA之间的相似性,并基于两个相似性网络以及已知的miRNA-疾病关联信息完成异构网络的构建;随后,通过对网络中已知的miRNA-疾病关联被不同规模的环状二分子图所覆盖的情况进行分析,结果表明已知的5100条miRNA-疾病关联均被不同路径长度的环状二分子图所覆盖。基于此,将疾病相关miRNA的预测问题转换为在异构网络中寻找miRNA与疾病之间映射关联的问题,通过利用疾病相似性网络和miRNA相似性网络中节点的不同层次邻居信息来识别潜在的疾病miRNA,同时基于不同网络拓扑差异性的考虑,采用非平衡随机游走方式得到不同层次邻居的相关信息,并通过迭代获得稳定状态后有关miRNA与疾病之间概率分值。最后,采用五折交叉验证的方式对BRWH算法性能进行评估,结果显示该算法获得了优于三种比较算法的AUC值。此外,有关肺癌、前列腺癌相关的案例分析也进一步验证了BRWH算法预测结果的有效性。34 博士学位论文第4章基于多信息融合的miRNA-疾病关联预测算法4.1引言在上一章中,基于网络拓扑特征以及疾病-疾病之间、miRNA-miRNA之间的全局相似性,提出了基于二分子图并采用非平衡随机游走策略识别潜在miRNA-疾病关联的预测模型BRWH,结果表明该模型相对比较算法而言整体性能得到了提升,能够有效地实现疾病相关miRNA的预测。然而,由于当前有关miRNA与疾病的关联信息十分有限,且BRWH模型过度依赖于已知的miRNA-疾病关联,因此,对于网络中已知关联较为稀疏的miRNA或疾病而言其预测性能欠佳,同时该模型也不能对新发现的孤立的miRNA或疾病进行相关预测。考虑到当前实验验证的miRNA与疾病之间关联信息相对有限,但是各组学中仍然存在大量其他的数据资源可供使用并用于挖掘潜在的有价值的信息,因此,为了进一步提高预测结果的准确性以及模型的通用性,本章提出了一种多信息融合的miRNA-疾病关联的预测模型KRLSM。通过整合多种可靠的异构数据很好的弥补了上一章BRWH算法的缺陷,实验结果表明,KRLSM对于miRNA-疾病关联较为稀疏的情况也能够取得较好的预测效果,同时也能针对新的miRNA或疾病进行潜在关联的预测。4.2相关工作如前面章节所述,研究者们已开展了大量工作用于揭示miRNA与疾病之间的内在联系,许多基于生物信息学的计算模型被提出用于挖掘潜在的miRNA-疾病关联,这有助于进一步加深对复杂疾病发病机制的理解。随着人类基因组计划的完成和各种生物医学技术的飞速发展,包括生物实验以及临床医学等在内的各种相关数据得到了不断累积,如何从这些丰富的资源中提取有价值的信息为我们所用是当前研究者们面临的一个重要挑战。探索人类复杂疾病相关的致病因子对于揭示疾病的隐含机制意义重大,能够为未来攻克癌症等世界性医学难题提供有价值的线索。当前,研究者基于不同的异构数据提出了许多预测疾病miRNA的模型,根据所使用数据的不同可以将这些模型分为不同的类型,如基于miRNA-靶基因数据的预测模型,这类计算方法包括有Jiang等人提出的基于SVM(SupportVector[114]Machine)的疾病miRNA预测方法、Li等人提出的CMP(CancermiRNA[115][116]prioritization)方法、Mørk等人提出的miRPD方法等。然而,这些方法大35 基于生物网络的致病miRNA预测及模块识别算法研究都采用基于预测的miRNA-靶基因数据,如Jiang等人提出的方法中miRNA靶基因数据从PITA和TargetScan数据库中获取,CMP方法中miRNA-靶基因信息来源于miRanda、PicTar4和TargetScan数据库,miRPD方法则从miRanda和TargetScan获得,而PITA、miRanda、PicTar4和TargetScan四个数据库中的miRNA-靶基因调控关系均源于计算方法而非生物实验,致使其具有较高的假阳性,因而也导致这些疾病miRNA预测模型很难获得显著的性能。另一方面,研究表明功能相似的miRNA更可能与表型相似的疾病存在关联,基于这种假设,Wang等人[69]于2010年提出了用于miRNA相似性计算的模型MISIM,该模型在后续疾病关联miRNA的预测方法中得到了广泛应用,如Chen等人在2013年提出的三种基于相似性的方法MBSI(microRNA-basedsimilarityinference)、PBSI(phenotype-basedsimilarityinference)和NetCBI(networkconsistency-based[117][107]inference)方法、Xuan等人提出的MIDP和MIDPE方法等。由第二章中相关概述可知,MISIM方法基于疾病语义相似性和已知miRNA-疾病关联来评估miRNA之间的相似性,即通过MeSH和HMDD两个数据库获得,但是,由于当前已知miRNA和疾病之间的关联信息相对有限,许多疾病或miRNA不存在任何已知关联或已知关联较为稀少,因而使得现有的一些基于相似性策略的方法不适用于已知miRNA-疾病关联较为稀疏的应用场景。因此,针对上述情况,本章提出了一种通过融合多种可靠性高的异构生物数据来预测疾病相关miRNA的方法KRLSM。4.3基于多信息融合的miRNA-疾病关联预测算法KRLSM4.3.1KRLSM算法框架为了克服BRWH等算法的不足,KRLSM算法整合了多种组学数据用于相似性的评估及疾病miRNA的预测,该算法主要可以分为三个步骤:(1)基于异构数据计算疾病之间、miRNA之间的相似性,主要包括疾病语义相似性、疾病高斯核相似性、miRNA功能相似性以及miRNA高斯核相似性,并采用线性组合方式获得疾病相似性矩阵和miRNA相似性矩阵;(2)基于克罗内克积(KroneckerProduct)的代数性质,将疾病空间和miRNA空间整合成一个miRNA-疾病空间;(3)基于整合的miRNA-疾病空间,采用正则化最小二分法实现miRNA与疾病之间潜在关联的预测。KRLSM算法的具体流程如图4.1所示。4.3.2疾病相似性评估与BRWH算法类似,KRLSM算法也是一种基于相似性的疾病miRNA预测模型。近年来,疾病相似性已被广泛应用于诸多生物研究中,如致病基因的预测、药物标志物的发现、癌症相关miRNA的识别等,在这些研究中,大部分计算方36 博士学位论文DatasourcesdiseasesmiRNAsmiRNA-tagetweightedMeSHdisease?genegene-geneDAGsassociationsinteractionsknownassociationsdiseasemiRNAsemanticdiseasemiRNAfunctionalsimilaritykernelkernelsimilarityStep1:Measurement3ofsimilarity……miRNA1miRNA2miRNAmiRNA4miRNA5miRNA6disease1disease2disease3disease4disease5miRNA1disease1miRNA2disease2miRNA3disease3SDmiRNA4SMdisease4+miRNA5disease5miRNA6……diseasesimilaritymatrixmiRNAsimilaritymatrix*TTRQCQMDStep2:PredictionofKRLSMpotentialassociationsSS(mmS,)(dd,)ijkl,MikDjl*T1Tvec(R)SS(I)vecR()…disease1disease2disease3disease4disease5miRNA1-CrossvalidationmiRNA2miRNA3*-DenovoexpriementmiRNA4RmiRNA5-Top-rankedresultanalysismiRNA6………miRAN-diseaseassociationmatrix-Casestudies图4.1KRLSM算法流程图法仅考虑了疾病之间的语义相似性,事实上在疾病语义相似性矩阵中大部分疾病之间的相似性值为0,即矩阵十分稀疏,因此,为了优化疾病相似性的度量方法,KRLSM将采用新的融合了更多信息的相似性评估策略,具体计算过程可以分为以下三个步骤:(1)疾病语义相似计算[69]疾病之间语义相似性仍采用Wang方法进行计算,即通过MeSH数据库中37 基于生物网络的致病miRNA预测及模块识别算法研究疾病对应的层次结构关系来评估不同疾病之间的语义相关性,如第二章所述,通常一种疾病d可描述为DAG(d)=(d,T(d),E(d)),T(d)表示这个DAG图中所有节点的集合,E(d)表示DAG图中疾病节点d与其他节点之间所有语义关系的集合,则疾病t对疾病d的语义贡献值可描述为:Dt()max{*Dt(')|'tchildrenoft()}(4.1)dd其中,△设置为0.5,当d=t时,Dd(t)=1。则疾病di和疾病dj之间的语义相似性可由公式4.2所示表示:tT(dij)T(d)(Dtddij()D())tSSdd(,)Dij(4.2)tT(dij)Dtddij()tT(d)D()t(2)疾病高斯核相似性计算[118]研究表明相似的疾病通常与miRNA之间表现出相似的相关性模式,因此,根据miRNA-疾病已知关联网络的拓扑结构,基于每个疾病对应的相互作用谱,采用高斯核函数来获得疾病有关的高斯相互作用谱(Gaussianinteractionprofile,[31]GIP)核相似性,其中疾病与miRNA之间的关联从HMDD数据库中获得。疾病di的相互作用谱可表示为一个二进制向量Ddi,它可以看作一个特征向量,向量中元素值0和1代表该疾病在关联网络中是否与对应的miRNA存在联系。则疾病di和疾病dj之间的高斯核相似性可由如下公式计算获得:2GSdd(,)exp(||DD||)(4.3)Dijddijd其中,γd表示核宽度参数,它可以借助疾病的平均miRNA关联数并标准化一个新的核宽度参数γ’d计算获得,具体计算方法如下所示:1nd'2dd/(||Ddi||)(4.4)ndi1其中,nd表示网络中疾病的个数。(3)疾病相似性整合如前面所述,基于Wang方法获得的疾病语义相似性矩阵中许多疾病之间的相似性值均为0,举例说明,如表4.1所示,从KRLSM算法所使用的330种疾病中任意选取10种疾病,并统计每种疾病与其他229种疾病之间语义相似性值不为0的个数,结果显示仅有少部分疾病与其他疾病之间的存在语义关联,尽管这些疾病之间可能事实上密切相关。针对这种情况,本文将整合Wang方法的疾病语义相似性以及疾病高斯核相似性,采用新的相似性评估方法来构建相似性矩阵,具体方法如下所示:38 博士学位论文*SSdd(,)(1)*GSdd(,)ifdd,DTDijDijijSddD(,ij)(4.5)GSdd(,)otherwiseDij其中,DT表示上述两种基于不同数据源的疾病相似性计算方法中公共疾病的集合(包括330种疾病),υ∈[0,1]为权值参数。表4.1疾病语义相似性矩阵中对应疾病列非0元素个数DiseasenameNumbersAdenocarcinoma127AlzheimerDisease48BreastNeoplasms145Cardiomyopathies40DiabetesMellitus32FocalEpithelialHyperplasia11Glioblastoma127HuntingtonDisease62LungNeoplasms139RadiationInjuries44.3.3miRNA相似性评估在许多miRNA-疾病潜在关联的预测模型中,由于miRNA之间的相似性大都依靠不同miRNA所关联的共同疾病来进行评估,使得相似性的计算过度依赖于已知的miRNA-疾病关联信息,且无法对那些新发现的不存在任何疾病关联信息的miRNA进行相似性的评估。因此,为了弥补这些不足,类似于上述疾病相似性的评估方法,KRLSM模型将通过融合多种可靠的数据来综合评估miRNA之间的相似性。同样,miRNA相似性的计算主要包含以下三个步骤:(1)miRNA功能相似性计算[69]不同于MISIM方法中利用MeSH和HMDD两种疾病相关数据来计算miRNA功能相似性的方法,本文基于miRNA的公共靶基因来评估miRNA之间的功能相似性,用到的数据主要包含有加权的基因功能相互作用网络和miRNA靶基因调控关系,为了提高结果的准确性,miRNA与靶基因之间的调控关系均从实验验证的数据库中获得。其中,加权的基因功能相互作用网络来源于HumanNet[119]数据库,为了评估两个基因之间的作用强度,该数据库中任意两基因之间的边均被赋予了一个对数似然得分(log-likelihoodscores,LLS);此外,miRNA-[97][98][13]靶基因的调控关系则从miRecords、miRTarBase和TarBase三个实验验证的数据库中获取。首先,采用Min-Max标准化策略对基因功能相互作用网络对应的权值矩阵进行归一化处理,基因gi和基因gj之间标准化的权值LLSN(gi,gj)的计算公式如下所示:39 基于生物网络的致病miRNA预测及模块识别算法研究LLSgg(,)LLSijmin(4.6)LLS(,gg)NijLLSLLSmaxmin其中,LLS(gi,gj)表示HumanNet中基因gi和基因gj之间的权值,LLSmin和LLSmax分别表示HumanNet中的最小和最大对数似然得分。随后,基因gi和基因gj之间的功能相似性可表示为:1,ggijFS(,gg)0,egg(,)HumanNet(4.7)GijijLLS(,gg),egg(,)HumanNetNijij[69]其中,e(gi,gj)表示基因gi和gj之间的边。采用文献中用于评估一种疾病和一组疾病之间相似性的相同策略,则基因gt与基因集GT={gt1,gt2,…,gtk}之间的相似性可通过如下公式计算:FSgGT(,)max(FSgg(,))(4.8)tGtti1ik通常,两个miRNA之间调控的公共靶基因越多,那么它们的功能越有可能[69]相似,基于这一生物学特性,本文采用最佳匹配平均策略来评估miRNA之间的功能相似性,miRNAmi和miRNAmj之间功能相似性的计算公式如下所示:FSgGT(tij,2)FSgGT(t,1)FS(mm,)1iGT|1|1jGT|2|(4.9)Mij|GT||GT|12其中,GT1和GT2分别表示miRNAmi和mj所调控的靶基因的集合,|GT1|和|GT2|分别表示集合中基因的个数。(2)miRNA高斯核相似性计算与疾病高斯核相似性的计算方法类似,通过基于每个miRNA对应的相互作用谱,然后利用高斯核函数计算疾病的高斯核相似性。miRNAmi的相互作用谱可表示为一个二进制向量Mmi,向量中元素值0和1代表该miRNA在关联网络中是否与对应的疾病存在联系,则miRNAmi和miRNAmj之间的高斯核相似性计算方法如下:2GS(mm,)exp(||MM||)Mijmmijm1nm(4.10)'2mm/(||Mm||)nimi1其中,γm表示核宽度参数,它可以借助miRNA的平均疾病关联数并标准化一个新的核宽度参数γ’m计算获得,nm表示网络中miRNA的个数。(3)miRNA相似性整合为了提高预测模型的通用性以及提高预测精度,miRNA相似性也同样基于整合方式将基于不同数据源的两种相似性评估策略进行融合,最终,miRNAmi和40 博士学位论文miRNAmj之间的相似性可由如下公式计算:*FS(mm,)(1)*GS(mm,)ifmm,MTMijMijijSM(mmi,j)(4.11)GS(mm,)otherwiseMij其中,w∈[0,1]为权值参数,MT表示上述两种miRNA相似性计算方法所使用的不同数据源中共同miRNA的集合。4.3.4KRLSM算法描述[120]为了减少参数的个数,受文献启发,本文首先基于克罗内克积(Kroneckerproduct)的代数性质将独立的miRNA空间和疾病空间转换为一个整合的miRNA-疾病空间,对应的克罗内克积相似性矩阵S可表示为:SSMDS(4.12)其中,矩阵S中的元素值可根据疾病相似矩阵SD和miRNA相似性矩阵SM获得,具体计算方法如下:SS(,mmSdd)(,)(4.13)ijkl,MikDjl假设|M|和|D|分别表示miRNA和疾病的个数,那么,克罗内克积相似性矩阵S的维度为|M||D|×|M||D|。miRNA与疾病之间的原始关联矩阵表示为R,其维度为|M|×|D|,结合克罗内克积和正则化最小二乘法,则基于miRNA-疾病空间来预测疾病相关的miRNA可转换为以下优化问题:T22TTTmin||vecR()Fmd||F||vecR()SvecR()||F(4.14)Fmd^T其中,FmdvecR(),||.||F代表弗罗贝尼乌斯范数(Frobeniusnorm),σ为正则化参数,vec(.)表示矩阵的拉直运算,即按顺序将矩阵的所有列存储为一个向量。对公式(4.14)最优化问题进行求解可获得:*T1Tvec(R)SS(I)vecR()(4.15)[120]其中,I表示为维度|M||D|×|M||D|的单位矩阵。根据参考文献,本文将σ设置为T1。通过对相似性矩阵SM和SD进行特征分解,则两矩阵可分别表示为SM=QMΛMQMT和SD=QDΛDQD。那么,克罗内克积相似性矩阵S可重写表示为如下形式:TSSSQQ(4.16)MD其中,QQQ,MDMD41 基于生物网络的致病miRNA预测及模块识别算法研究[121]为了显著性地降低计算复杂度和加快模型的训练速度,本文运用了文献中提及的一种名为“vec-trick”的加速技术,该技术基于克罗内克积的如下性质,即Tvec(AXB)=(BA)vec(X)。因此,可将公式(4.15)最终转换成如下表示形式:*T1TTvecR()Q(I)QvecR()1TTT(QQ)()(I)(QQ)vecR()MDMDMDMD1TT(QQ)()(I)vecQRQ()MDMDMDDM(4.17)(QQvecC)()MDTvecQCQ()DM其中,1TTvecC()()(I)vecQRQ()MDMDDM随后,KRLSM算法中用于评估疾病与miRNA之间潜在关联的概率分值可通过以下计算公式获得:*TTRQCQ(4.18)MD从公式(4.17)可以看出,上述基于克罗内克积和正则化最小二乘法的预测模型仅需要矩阵相乘运算和两次特征分解,通过采用“vec-trick”加速策略后时333*间复杂度由原来的O((|M||D|))降低到了O(|M|+|D|)。最终,R(,)ij代表miRNAi与疾病j之间的关联性得分,针对特定疾病,关联性分值越大或排名越高的候选miRNA即可以被选为潜在的疾病相关的miRNA用于进一步的生物实验验证。KRLSM算法的具体过程如算法4.1所示。4.4实验及结果分析4.4.1实验数据来源[89]疾病之间的关系从MeSH数据库(https://www.nlm.nih.gov/mesh/)中下载,用来根据不同疾病对应的DAG层次结构计算疾病之间的语义相似度。已知miRNA-疾病关联的标准数据集来源于HMDDv2.0,通过将多个不同的miRNA转录本转换为同一个成熟miRNA等预处理后,共包括378种疾病、495个miRNA和5424条miRNA-疾病关联。由于一些疾病命名的不统一或不规范,378种疾病中有330种疾病包含在数据库MeSH中。考虑到miRNA靶基因的预测工具具有[97][98]较高的假阳性,本文将从miRecords(version4.0)、miRTarBase(version4.5)[13]和TarBase(version6.0)三个实验验证数据库中获取相关调控关系,经过去除重复关系同时删除那些不包含在HMDD数据库中的miRNA及相关的关系后,得到42 博士学位论文算法4.1:KRLSM算法Input:MeshdiseaseDAGs,knownmiRNA-diseaseassociationmatrixR,miRNA-geneassociations,gene-geneinteractions,parametersγ’d,γ’m,σ,υandω*Output:PredictedassociationmatrixR1.D{,...,dd},M{,...,mm};11kt2.calculatethediseasesemanticsimilarityusingEq.(4.2);3.calculatethediseaseGIPkernelsimilarityusingEq.(4.3);4.foreachdiseasepair,d,dDdo//calculatesimilarityforeachdiseasepairij5.calculatethesimilaritySD(di,dj)usingEq.(4.5):*SSdd(,)(1)*GSdd(,)ifdd,DTDijDijijSdd(,)DijGSdd(,)otherwiseDij6.endfor7.calculatethemiRNAfuntionalsimilarityusingEq.(4.9);8.calculatethemiRNAGIPkernelsimilarityusingEq.(4.10);9.foreachmiRNApair,m,mMdo//calculatesimilarityforeachmiRNApairij10.calculatethesimilaritySM(mi,mj)usingEq.(4.11);*FS(mm,)(1)*GS(mm,)ifmm,MTMijMijijS(mm,)MijGS(mm,)otherwiseMij11.endforT12.QDDQDSD;13.T;QQSMMMM1TT14.vecC()()(I)vecQRQ();MDMDDM*TT15.RQCQ;MD*16.ReturnR.了涉及477个miRNA和12422个基因的38089条miRNA-靶基因关系。加权基因功能相互作用网络数据来源于HumanNet(http://www.functionalnet.org/[119]humannet/),包含了16243个基因及476399条基因相互作用关系。4.4.2评估方法和指标[107][107]为了综合的比较KRLSM与其他经典算法(MIDP、MIDPE、[106]RWRMDA)的性能,本文采用五折交叉验证(Five-foldCrossValidation,5-CV)的方式对各算法进行评估,其中AUC值将作为主要的评价指标之一。在实验过程中,由于疾病高斯核相似性和miRNA高斯核相似性的计算与已知的miRNA-疾病关联相关,因此,随着每次实验中测试集和训练集发生变化,需根据不同的实验场景重新对疾病以及miRNA的相似性进行计算。原则上,在预测列表中排名越高的结果要比排名靠后的部分更为重要,通常这部分靠前的miRNA与疾病之间的关联性更强,因此,为了进一步验证算法预测结果的准确性,通过统计不同排名阈值下已知miRNA-疾病关联被正确识别的数量来对各算法进行进一步的43 基于生物网络的致病miRNA预测及模块识别算法研究比较。若一个计算方法在排名靠前的部分能够正确识别的真实关联越多,那么该方法越有效。此外,随着新的miRNA或疾病的迅速增加,有关这些miRNA或疾病的关联信息相当有限,甚至没有任何已知miRNA-疾病关联作为先验信息用于预测,为进一步验证各种方法针对新疾病的预测能力,基于该种试验场景也同样进行了试验及比较。4.4.3实验结果分析在KRLSM算法中,包含了γ’d、γ’m、σ、υ和ω五个参数,其中,γ’d和γ’m为疾病和miRNA高斯核相似性计算过程中新的核宽度参数,σ为正则化参数,根[121]据参考文献,本文中设置γ’d=γ’m=1和σ=1。参数υ和ω表示权重系数,主要用于整合不同的相似性评估策略。为了探索υ和ω两个参数对KRLSM预测性能的影响,采用五折交叉验证实验来对性能进行评估。如图4.2所示,当υ=0.7和ω=0.8时,KRLSM获得的AUC值最大,因此,在后续实验中将υ设置为0.7,ω设置为0.8。此外,从图中可以发现,当υ=0时,AUC值为0.841;当υ=1时,AUC值为0.811;同样,当ω的值为0或者1时,AUC的值为0.521或0.833。从以上结果可以发现,KRLSM获得最优效果时参数υ和ω均不为0或1,表明采用线性组合方式将多种组学数据信息融合用于相似性评估,能够有效地提高模型的预测效果。比较算法MIDP、MIDPE、RWRMDA均采用各方法中默认的参数,MIDP算法中rQ=0.4和rU=0.1,MIDPE算法中α=0.9和γ=0.8,RWRMDA算法中r=0.9。0.860.90.80.840.70.820.6AUCAUC0.50.800.40.780.300.10.20.30.40.50.60.70.80.9100.10.20.30.40.50.60.70.80.91υω(A)(B)图4.2参数υ和ω对KRLSM算法性能的影响(1)性能比较分析由于比较算法采用的较早版本的HMDD实验数据,为了综合评估KRLSM及比较算法MIDP、MIDPE和RWRMDA的性能差异,本文均采用最新版本的HMDD数据,如前面所述,共包含涉及378种疾病的5424条已知miRNA-疾病关联数据。通过分析分析,在这378种疾病中,已知关联数最多的一种疾病有214条,最少的疾病则只有1条,因此,为了在不同稀疏度的网络中公平、合理的评估各算法44 博士学位论文[107]性能,本文将设置如下两个实验场景进行五折交叉验证实验:1)参照文献,选取已知关联数至少为60的22种常见疾病进行实验;2)选取已知关联数超过10的疾病进行实验。1008060TPR(%)40KRLSM(AUC=0.853)RWRMDA(AUC=0.801)20MIDP(AUC=0.833)MIDPE(AUC=0.821)0020406080100FPR(%)图4.3实验场景一KRLSM与其他算法ROC曲线表4.222种疾病五折交叉验证AUC值比较No.ofassociatedAUCDiseasenamemiRNAsKRLSMRWRMDAMIDPMIDPEBreastNeoplasms2020.8760.8010.8080.803HepatocellularCarcinoma2140.8010.7530.7620.748Non-Small-CellLungCarcinoma950.8610.8170.8460.843RenalCellCarcinoma1070.8590.7820.8090.792SquamousCellCarcinoma800.9180.8390.8700.863ColonicNeoplasms780.8490.7990.8440.823ColorectalNeoplasms1470.8020.7930.8100.803Endometriosis620.8270.7770.7920.801EsophagealNeoplasms740.8780.7420.8650.839Glioblastoma960.8610.7710.8090.792Glioma710.8910.8600.8870.871HeadandNeckNeoplasms640.8870.8310.8670.857HeartFailure1200.8260.7620.7820.781Leukemia,Myeloid,Acute640.8990.7780.8460.816LungNeoplasms1320.9110.8630.8980.883Medulloblastoma620.7960.7700.7950.791Melanoma1410.7830.7700.8160.797OvarianNeoplasms1140.8510.8770.8920.884PancreaticNeoplasms990.9210.8610.8880.873ProstaticNeoplasms1180.8450.8040.8290.820StomachNeoplasms1740.7890.7730.7810.772UrinaryBladderNeoplasms920.8470.7870.8360.81945 基于生物网络的致病miRNA预测及模块识别算法研究1008060TPR(%)40KRLSM(AUC=0.838)RWRMDA(AUC=0.773)20MIDP(AUC=0.805)MIDPE(AUC=0.814)0020406080100FPR(%)图4.4实验场景二KRLSM与其他算法ROC曲线如图4.3所示,KRLSM、RWRMDA、MIDP、MIDPE四种算法在实验场景一中,获得的平均AUC值分别为0.853、0.801、0.833和0.821,KRLSM算法获得了优于其他比较算法的性能,平均AUC值分别比三种比较算法高出5.2%、2.0%和3.2%。同时,从表4.2可以看出,在22种疾病中,基于KRLSM算法获得的大部分疾病的AUC值均要高于比较算法。在实验场景二中,如图4.4所示,KRLSM算法获得的平均AUC值分别比RWRMDA、MIDP和MIDPE三种比较算法高出6.5%、3.3%和2.4%。以上结果说明表明,KRLSM算法在miRNA-疾病关联较为稠密或稀疏的不同场景下均能够取得较好的实验效果。图4.5各算法不同阈值下正确识别的已知关联条数统计此外,为了进一步验证KRLSM与其他算法的性能差异,图4.5和表4.3分别给出了不同阈值下各算法所正确识别出的已知关联的条数和比率。由图4.4可以看出,不同阈值条件下KRLSM算法正确识别出的已知关联的数目要明显高于比较算法RWRMDA、MIDP和MIDPE。例如,在所有的5424条已知关联中,当阈46 博士学位论文值为10时,KRLSM能够正确识别出1968条(36.28%)已知关联,而其他三种算法则分别为19.06%、31.62%和29.55%。当阈值为100时,KRLSM、RWRMDA、MIDP和MIDPE四种算法正确识别出的已知关联数分别为91.17%、65.36%、83.79%和76.11%。由此可见,和比较算法相比,KRLSM算法更能够正确预测出已知的miRNA-疾病关联,这也在一定程度上间接反映出KRLSM预测的候选关联可能具有更低的假阳性。表4.3各算法不同阈值下正确识别的已知关联所占比率ThresholdsKRLSMRWRMDAMIDPMIDPETop1036.28%19.06%31.62%29.55%Top3061.87%43.18%50.88%47.29%Top5074.54%49.32%65.32%58.13%Top8085.97%59.66%71.22%74.08%Top10091.17%65.36%83.79%76.11%(2)新疾病实验场景分析当前,各种新的疾病不断被发现,针对这些不存在任何miRNA与疾病先验关联信息的应用场景,通过进一步实验来验证KRLSM发现新疾病潜在相关miRNA的能力。实验过程中,对于某一疾病d,将与该种疾病相关的已知miRNA-疾病关联全部去除,并将这些去除的关联作为测试集中的正样本,随后根据获得的关联性分值对测试集中miRNA进行排名及性能评估。在比较算法中,由于MIDP和RWRMDA两种算法无法用于新疾病的预测场景,因此,实验中KRLSM仅与MIDPE算法进行性能比较。BreastNeoplasmsLungNeoplasmsProstaticNeoplasms100100100808080606060404040TPR(%)TPR(%)TPR(%)20KRLSM20KRLSM20KRLSMMIDPEMIDPEMIDPE000206040080100020604080100020604080100FPR(%)FPR(%)FPR(%)图4.6新疾病实验场景下各算法ROC曲线比较本文选取三种常见的疾病为例,即乳腺癌、肺癌和前列腺癌三种癌症,通过分别去除三种癌症对应的202、132和118条已知关联后进行实验评估分析。如图4.6所示,针对乳腺癌、肺癌和前列腺癌三种疾病,KRLSM方法获得的AUC值分别为0.832、0.847和0.815,而MIDPE方法获得的AUC值则分别为0.791、0.828和0.804,结果表明KRLSM方法较MIDPE方法而言预测性能有了一定提升。此外,47 基于生物网络的致病miRNA预测及模块识别算法研究为了加强对算法有效验证,基于召回率(recall)对KRLSM和MIDPE两算法也进行了进一步比较,即比较不同排名阈值下所能正确预测出的已知的实验验证的miRNA-疾病关联的比率。结果如表4.4所示,在top20至top120中,KRLSM方法的召回率均要高于MIDPE方法,这也说明KRLSM能够更准确的识别出真实的miRNA-疾病关联。上述结果表明,KRLSM方法对于预测新疾病的潜在相关的miRNA同样具有较好的性能。表4.4KRLMS和MIDPE两种算法召回率(Recall)比较结果RankingthresholdDiseasenameMethodTop20Top40Top60Top80Top100Top120Top140BreastNeoplasmsKRLSM9.41%18.81%27.23%37.13%45.54%51.98%56.44%MIDPE8.42%10.40%13.37%17.33%24.26%30.69%36.14%LungNeoplasmsKRLSM12.88%23.48%33.33%41.67%48.48%54.55%56.06%MIDPE12.12%12.88%16.67%21.97%30.30%35.61%42.42%ProstaticNeoplasmsKRLSM9.32%13.56%17.80%23.73%34.75%34.75%36.44%MIDPE8.47%10.17%13.56%19.49%24.58%34.75%40.68%KRLSM-GSKRLSMUrinaryBladderNeoplasmsStomachNeoplasmsProstaticNeoplasmsPancreaticNeoplasmsOvarianNeoplasmsMelanomaMedulloblastomaLungNeoplasmsLeukemia,Myeloid,AcuteHeartFailureHeadandNeckNeoplasmsGliomadiseasenameGlioblastomaEsophagealNeoplasmsEndometriosisColorectalNeoplasmsColonicNeoplasmsSquamousCellCarcinomaRenalCellCarcinomaNon-Small-CellLungCarcinomaHepatocellularCarcinomaBreastNeoplasms00.20.40.60.81AUC图4.7KRLSM算法基于不同相似性评估策略下的AUC比较(3)相似性度量方法对性能的影响为了验证本文融合多种异构信息的相似性评估方法要优于基于单一数据的相似性评估方法,针对前面所提及的已知关联大于60的22种疾病,将KRLSM方法应用于两种不同的相似性评估策略下,并采用五折交叉验证进行实验,两种实验分别用KRLSM-GS和KRLSM表示。KRLSM-GS表示疾病之间以及miRNA之间的相似性仅采用4.3节中所介绍的高斯核相似性方法进行计算,该相似性评估策略仅依赖于已知的miRNA-疾病关联信息;KRLSM方法则表示采用整合后的疾病或miRNA相似性评估策略,即融合多种异构组学数据进行相似性计算的方法。比较结果如图4.7所示,针对这22种疾病,由图可以发现KRLSM方法获得的AUC48 博士学位论文均要高于KRLSM-GS方法,如乳腺癌、肺癌和前列腺癌三种疾病在前者中获得的AUC分别为0.876、0.911和0.845,而在后者中的AUC分别为0.794,、0.886和0.833,上述结果也进一步说明多信息融合的方法能够有效地提高模型的预测性能。(4)案例分析为了验证KRLSM方法优选疾病相关miRNA的有效性,选取乳腺癌、肺癌以及前列腺癌等常见癌症进行相应的案例分析。此时,将所有的已知miRNA-疾病关联当作训练集,剩下的未知关联作为候选集,随后根据所选特定疾病的预测结[9][108]果采用文献或公开的疾病miRNA数据库miRCancer、dbDEMC和[100]PhenomiR2.0来进行查找及验证。表4.5KRLSM算法预测的top30个乳腺癌相关miRNA候选RankmiRNAsEvidencesRankmiRNAsEvidences1hsa-mir-186PhenomiR2.0,dbDEMC16hsa-mir-744Unconfirmed2hsa-mir-185miRCancer,PhenomiR2.0,dbDEMC17hsa-mir-192PhenomiR2.0,dbDEMC3hsa-mir-99amiRCancer,dbDEMC18hsa-mir-142miRCancer,PhenomiR2.04hsa-mir-330PhenomiR2.0,dbDEMC19hsa-mir-372PhenomiR2.0,dbDEMC5hsa-mir-138Unconfirmed20hsa-mir-30emiRCancer,PhenomiR2.06hsa-mir-98miRCancer,PhenomiR2.0,dbDEMC21hsa-mir-99bmiRCancer,PhenomiR2.0,dbDEMC7hsa-mir-130amiRCancer,PhenomiR2.0,dbDEMC22hsa-mir-150miRCancer,PhenomiR2.0,dbDEMC8hsa-mir-92bdbDEMC23hsa-mir-361PhenomiR2.0,dbDEMC9hsa-mir-378aUnconfirmed24hsa-mir-196bPhenomiR2.0,dbDEMC10hsa-mir-615dbDEMC25hsa-mir-449bUnconfirmed11hsa-mir-106aPhenomiR2.0,dbDEMC26hsa-mir-32PhenomiR2.0,dbDEMC12hsa-mir-449amiRCancer,PhenomiR2.027hsa-mir-542Unconfirmed13hsa-mir-331PhenomiR2.0,dbDEMC28hsa-mir-484dbDEMC14hsa-mir-15bPhenomiR2.0,dbDEMC29hsa-mir-181dmiRCancer,dbDEMC15hsa-mir-130bPhenomiR2.0,dbDEMC30hsa-mir-424PhenomiR2.0,dbDEMC通过KRLSM预测的乳腺癌相关的前30个候选miRNA如表4.5所示,从表中可以发现,有83.3%的miRNA已经直接被miRCancer、dbDEMC和PhenomiR2.0三个数据库证实与乳腺癌的发生存在关联。在肺癌的预测结果中,排名前30的miRNA中有27个miRNA被这三个数据库所直接证实与该种癌症相关,同时如[122][123]hsa-mir-378a和hsa-mir-708也被文献证实与肺癌的产生存在联系,如表4.6所示。此外,这些预测的miRNA中一些在其它计算方法(如HDMP和MIDP)的预测结果中同样具有较高的排名,如表4.7所示,基于KRLSM和MIDP两种方法获得的排名前10的预测列表中,针对乳腺癌、肺癌和前列腺癌三种癌症,同时被两种所预测的miRNA的个数分别为6、4和4;同样,针对这三种癌症,如图4.8所示,KRLSM、MIDP和HDMP三种方法前50个预测miRNA中重叠的miRNA个数分别有为27、26和26,这也在一定程度上间接反映了KRLSM方法预测结果49 基于生物网络的致病miRNA预测及模块识别算法研究的有效性。表4.6KRLSM算法预测的top30个肺癌相关miRNA候选RankmiRNAsEvidencesRankmiRNAsEvidences1hsa-mir-193bmiRCancer,PhenomiR2.0,dbDEMC16hsa-mir-423miRCancer,PhenomiR2.0,dbDEMC2hsa-mir-296PhenomiR2.0,dbDEMC17hsa-mir-141PMID:225733523hsa-mir-149miRCancer,PhenomiR2.0,dbDEMC18hsa-mir-708miRCancer,PhenomiR2.04hsa-mir-16miRCancer,dbDEMC19hsa-mir-204PhenomiR2.05hsa-mir-429miRCancer,PhenomiR2.0,dbDEMC20hsa-mir-320aUnconfirmed6hsa-mir-151adbDEMC21hsa-mir-615miRCancer,PhenomiR2.07hsa-mir-106bPhenomiR2.0,dbDEMC22hsa-mir-449amiRCancer,PhenomiR2.0,dbDEMC8hsa-mir-378aPMID:2233147323hsa-mir-195PhenomiR2.09hsa-mir-10amiRCancer,PhenomiR2.0,dbDEMC24hsa-mir-20bmiRCancer10hsa-mir-92bmiRCancer,PhenomiR2.025hsa-mir-625PhenomiR2.011hsa-mir-130aPhenomiR2.0,dbDEMC26hsa-mir-324miRCancer,PhenomiR2.012hsa-mir-15amiRCancer,PhenomiR2.0,dbDEMC27hsa-mir-361PhenomiR2.013hsa-mir-99amiRCancer,PhenomiR2.0,dbDEMC28hsa-mir-425PhenomiR2.014hsa-mir-15bmiRCancer,PhenomiR2.0,dbDEMC29hsa-mir-331PhenomiR2.015hsa-mir-451adbDEMC30hsa-mir-744miRCancer,PhenomiR2.0,dbDEMC表4.7KRLSM和MIDP预测结果中miRNA重叠部分Top10rankedpredictionsNo.ofcommonDiseasemiRNAsKRLSMMIDP*Breast6hsa-mir-186,hsa-mir-185,hsa-mir-130a,hsa-mir-138,hsa-mir-99a,Neoplasmshsa-mir-99a,hsa-mir-330,hsa-mir-142,hsa-mir-106a,hsa-mir-192,hsa-mir-138,hsa-mir-98,hsa-mir-378a,hsa-mir-95,hsa-mir-185,hsa-mir-130a,hsa-mir-92b,hsa-mir-186hsa-mir-378a,hsa-mir-615Lung4hsa-mir-193b,hsa-mir-296,hsa-mir-130a,hsa-mir-151a,hsa-mir-193b,Neoplasmshsa-mir-149,hsa-mir-16,hsa-mir-302b,hsa-mir-16,hsa-mir-451a,hsa-mir-429,hsa-mir-151a,hsa-mir-195,hsa-mir-106b,hsa-mir-139,hsa-mir-106b,hsa-mir-378a,hsa-mir-708hsa-mir-10a,hsa-mir-92bProstatic4hsa-mir-429,hsa-mir-10b,hsa-mir-10b,hsa-mir-135a,hsa-mir-138,Neoplasmshsa-mir-103a,hsa-mir-149,hsa-mir-199b,hsa-mir-210,hsa-mir-139,hsa-let-7g,hsa-mir-138,hsa-mir-302b,hsa-mir-18b,hsa-mir-429,hsa-mir-186,hsa-mir-7,hsa-let-7ghsa-mir-18a,hsa-mir-196a*ThepredictionsareobtainedfromtheonlinetoolforMIDP(http://bioinfolab.stx.hk/midp/).图4.8不同算法预测的乳腺癌、肺癌和前列腺癌miRNA重叠个数50 博士学位论文图4.9乳腺癌、肺癌和前列腺癌及对应top30个miRNA候选所组成网络706050403020100ApoptosiscelldeathmiRNAsAktpathwayAngiogenesisDNArepairHIVlatencycelldivisioncellmotilitychemotaxisCardiogenesisEMtransitionGranulopoiesisHCVinfectioninflammationcircadianclockhematopoiesisonco-CellcyclerelatedCellproliferationFolliculogenesisHESCregulationImmuneresponse-cellproliferationcellproliferationcircadianrhythmimmunesystemlipidmetabolismBoneregenerationCelldifferentiationbraindevelopmentheartdevelopmentHormonesregulationMuscledevelopmentantiglucosemetabolismcellfatedeterminationchromatinremodelingadipocytedifferentiationcholesterolbiosynthesissmoothmusclecellfatecarbohydratemetabolismmiRNAtumorsuppressorsActivationofcaspasescascadeChemosensitivityoftumorcells图4.10基于TAM工具对miRNA的功能注释结果此外,图4.9给出了KRLSM预测的与乳腺癌、肺癌和前列腺癌三种疾病潜在相关的前30个miRNA所构成的网络。从图中可也看出,这些预测的具有较高排名的候选的miRNA通常与一种或多种疾病存在联系。另外,除了利用文献或数据库方式来验证预测结果的准确性外,通过采用miRNA的在线注释工具TAM[124](http://cmbi.bjmu.edu.cn/tam)进一步对预测的疾病miRNA进行了功能富集分析,旨在研究这些候选miRNA的生物功能是否与癌症的发展有关,这里仅选取乳腺癌已知相关的miRNA(202)以及预测的前30个miRNA进行富集分析。如图4.10所示,在这232个miRNA中,其中63个miRNA与人胚胎干细胞调控(humanembryonicstemcellregulation)相关,55个miRNA与细胞周期(cellcycle)的相51 基于生物网络的致病miRNA预测及模块识别算法研究关功能存在联系,此外,分别有48、38和44个miRNA参与了激素调节(hormonesregulation)、细胞凋亡(apoptosis)和细胞死亡(celldeath)。越来越多的证据表明,上述的功能在癌症的发展中起着关键的作用。例如,一些研究表明,异常的干细胞[125,126]可能会导致肿瘤和许多类型的癌症发生。同时,细胞死亡和凋亡也与乳腺癌有关。总的来说,这些疾病相关的miRNAs参与了许多关键的生物学过程,而其中许多生物学过程最终导致了癌症的产生。4.5本章小结本章主要针对当前许多预测模型在已知miRNA-疾病关联较为稀疏的场景下预测性能不佳,以及不能对新疾病的潜在miRNA进行预测等问题,提出了一种通过融合多种异构信息来预计疾病相关miRNA的计算方法KRLSM。不同于以往大部分的预测模型,KRLSM方法中通过借助多种其他异构数据来弥补当前miRNA与疾病之间先验信息不足的问题,大大降低了预测模型对已知miRNA-疾病关联的依赖程度,使其能够在关联信息相对稀疏的场景也能取得较好的预测效果,同时也能用于新疾病的相关预测。本章首先主要对KRLSM方法中有关疾病相似性和miRNA相似性的评估策略进行了介绍,通过融合多种不同类型的数据有效地对疾病之间或miRNA之间的相关性进行了度量;然后,基于疾病相似性矩阵和miRNA相似性矩阵,采用克罗内克积的代数性质将疾病和miRNA两个独立空间整合成为一个完整空间;随后,基于正则化最小二乘法的方法来识别潜在的疾病相关的miRNA。实验结果表明,相对于比较算法,KRLSM方法在不同实验场景下均取得了更好的预测效果。52 博士学位论文第5章基于图正则化非负矩阵分解的疾病miRNA预测算法5.1引言近年来,随着对miRNA等非编码RNA(non-codingRNA,ncRNA)研究的深入,许多新的ncRNA分子在不同物种中被不断发现和识别。然而,当前对这些miRNA等非编码RNA的生物功能以及它们在生物体中所扮演的角色仍知之甚少,有关它们的功能注释信息也相当有限。同时,研究也表明miRNA等非编码RNA的异常表达与许多疾病的发生有关,因此,研究非编码RNA与疾病发生之间的联系对于彻底揭示疾病本质具有重要作用。另一方面,目前新发现的疾病或者早已发现但依然了解不多的疾病大有存在,通过预测与这些疾病潜在相关的致病因子,对于疾病的诊断、药物靶标的发现以及新药物的研究等都具有促进作用。如前文所述,miRNA作为一种重要的调控因子,它通过在后转录水平抑制靶基因的表达等来影响生物体内诸多的生物过程,miRNA的变异或异常表达往往与复杂疾病的产生存在着某种必然联系,研究者们为了更深入地挖掘miRNA与疾病之[127-129]间的潜在关联已进行了许多相关研究。在上一章中,为了能够在已知miRNA-疾病关联较为稀疏的条件下也能使模型取得较好的预测效果,采用了融合多种异构信息的方式来提高预测的精度,结果显示这种方式有助于性能的提升,同时所提出的KRLSM方法也能够针对新的特定疾病进行预测。但是,鉴于KRLSM方法在许多新疾病或miRNA同时出现的应用场景下效果不佳,而且其预测性能也有待进一步提高,同时大部分现有方法无法同时应用于新疾病和新miRNA两种场景,本章提出了一种新的基于图正则化非负矩阵分解的疾病miRNA预测算法GRNMF,该算法具有更强的通用性且能够获得更优的预测效果。5.2相关工作针对没有任何已知关联信息的新疾病潜在关联miRNA的预测问题,目前已[57][107][118]有一些方法能够适用于这种特殊场景,如RLSMDA、MIDPE、WBSMDA等。2014年,Chen等人考虑到许多模型采用假阳性较高的数据集,且部分算法需要miRNA-疾病关联负样本数据,提出了一种基于半监督学习框架推断miRNA-[69]疾病关联的方法RLSMDA,该方法不需要负样本数据,它首先利用Wang方法中疾病语义相似性和miRNA功能相似性的评估策略,然后采用半监督分类器分53 基于生物网络的致病miRNA预测及模块识别算法研究别在疾病空间和miRNA空间进行预测获得两组miRNA与疾病的概率性分值,随后基于简单加权方式将两组数据融合从而获得最终预测结果。2015年,Xuan等人通过对MIDP方法进行扩展,基于疾病语义相似性网络、miRNA功能相似性网络以及miRNA-疾病已知关联构建双层的miRNA-疾病异构网络,并基于双层网络[69]采用随机游走策略预测潜在的疾病相关的miRNA。随后,Chen等人提出了一种同样基于相似性的miRNA-疾病关联预测的方法WBSMDA,它主要通过计算有关miRNA和疾病的Within-Score及Between-Score来获得每对miRNA-疾病之间[118]的概率性得分,该方法同样能够用于新疾病相关miRNA的预测。此外,已有研究表明人体内有超过60%的蛋白质编码基因被miRNA所调控,因此,不同于以往大多数基于相似性的疾病相关miRNA预测方法,Zhao等人通过利用当前丰富的基因表达谱数据以及miRNA-靶基因调控网络等,提出了基于miRNA靶基因簇的方法miR_Clust和基于功能失调通路的方法miR_Path来识别疾病相关的[129]miRNA,这两种方法均不需要已知miRNA-疾病关联数据,但是由于基因表达谱只与一种疾病相关,故每次只能识别某种特定疾病潜在相关的miRNA。尽管当前已存在一些方法能够适用于新疾病候选miRNA的识别,但是大多数模型在这种特殊场景中预测效果不是很理想,且很少有研究者专门设计应用于新疾病、新miRNA或已知miRNA-疾病关联较为稀疏的场景中的预测模型,因此,针对以上情况本章提出了一种新的基于图正则化非负矩阵分解的算法GRNMF用于潜在miRNA-疾病关联的预测。5.3基于图正则化非负矩阵分解的疾病miRNA预测算法GRNMF5.3.1GRNMF算法框架与前文的疾病相关miRNA预测方法类似,GRNMF算法也是一种基本相似性的方法,该算法主要包括以下三个步骤:(1)充分利用疾病之间的语义关系、加权的基因相互作用网络以及实验验证的miRNA-靶基因调控关系来评估疾病-疾病之间、miRNA-miRNA之间的相似性;(2)不同于以往的算法,为了将GRNMF算法扩展到新疾病或新miRNA,以及已知关联信息较为稀疏的应用场景,通过构建加权K近邻谱(WeightedKNearestNeighborProfiles,WKNNP)的预处理方式来辅助这些先验信息较为稀少的疾病或miRNA进行预测;(3)通过将疾病关联miRNA预测问题转换为一个推荐任务,基于步骤二获得的更新后的miRNA-疾病关联概率矩阵,采用图正则化非负矩阵分解的技术来识别潜在的疾病相关的miRNA。GRNMF算法的整体框架如图5.1所示。54 博士学位论文…disease1disease2disease3disease4disease5miRNA1miRNA2GRNMFmiRNA3WeightedKnearestneighborprofilemiRNA41KmiRNA5YmmqiwYmii()miRNA6Q1m…1KY:(nm)YddpjwYdj()jadjacencymatrix1Qd…Ymax(,YY)…mdmiRNA1miRNA2miRNA3miRNA4miRNA5miRNA6disease1disease2disease3disease4disease5miRNA1miRNA2disease1miRNA3disease2…miRNA4disease3disease1disease2disease3disease4disease5miRNA5disease4miRNA1miRNA6disease5miRNA2……miRNA3Sm:(nn)Sd:(mm)miRNA4miRNAsimilaritymatrixdiseasesimilaritymatrixmiRNA5miRNA6…updatedmatrixY:(nm)m*mmijS,XSijijijd*ddijS,XSijijijGraphregularizednon-negativematrixfactorization(GRNMF)……T222minYWH(WH)miRNA1miRNA2miRNA3miRNA4miRNA5miRNA6disease1disease2disease3disease4disease5WH,FlFFmiRNA1disease1TmiRNA2disease2TrWLW()mmmiRNA3disease3miRNA4TmiRNA5+disease4ddTrHLH()miRNA6disease5…st..W0,H0…m*d*S:(nn)S:(mm)multiplicativeupdatingalgorithm…disease1disease2disease3disease4disease5rankcandidatemiRNAsfordiseasedmiRNA10.407310.352miRNA2*T0.352120.054miRNA3YWH+…30.407miRNA40.112kmiRNA5miRNA6…………0.0542k0.112*Wnk:()H:(mk)Y:(nm)predictedassociationmatrix图5.1GRNMF算法流程图5.3.2相似性网络构建为了进一步降低预测结果对已知miRNA-疾病关联的依赖程度,在GRNMF算法中,疾病相似性的计算基于MeSH数据库中疾病对应的DAG图层次结构来获得,即采用上一章4.3节中的疾病语义相似性评估方法来构建疾病相似性网络,疾病di和疾病dj之间的相似性计算方法如下:55 基于生物网络的致病miRNA预测及模块识别算法研究Dt()max{*Dt(')|'tchildrenoft()}ddtTT(Dtdd()D())tdddijij(5.1)Sdd(,)ijtTDtdd()tTD()tddijijd其中,△=0.5,Dd(t)表示疾病t对疾病d的语义贡献值,S(di,dj)为疾病di和疾病dj之间的相似性值。同样,采用4.3节中的miRNA功能相似性计算方法来构建miRNA相似性网络,即通过不同miRNA之间重叠的靶基因集来评估两个miRNA之间的相似性,[119][97][98][13]相关数据来源于HumanNet、miRecords、miRTarBase和TarBase。首先,通过对加权的基因功能相互作用网络所对应的矩阵进行归一化处理获得基因与基因之间的功能相似性矩阵;随后,基于miRNA靶基因调控关系和基因相似性矩阵评估一个基因gt与基因集G={gt1,gt2,…,gtk}之间的相似性,具体如下公式所示:SgG(,)max((,Sgg))(5.2)ttti1ik[69]最后,采用文献中最佳匹配平均方法计来计算miRNA之间的功能相似性,从而最终构建miRNA功能相似性网络。miRNAmi和miRNAmj之间功能相似性的具体计算方法如下:gGSgG(,ji)gGSgG(,)Sm(mm,)ij(5.3)ij|GG|||ij其中,Gi和Gj分别表示miRNAmi和mj所调控的靶基因的集合,|Gi|和|Gj|分别表示集合中基因的个数。5.3.3WKNNP预处理假设M={m1,m2,…,mn}和D={d1,d2,…,dm}分别表示n个miRNA和m种疾病;n×mY∈R代表原始miRNA与疾病关联网络对应的邻接矩阵,当Yij=1时,表示miRNAmi与疾病dj之间存在已知关联,否则为0。矩阵Y的第i行向量,即Y(mi)=(Yi1,Yi2,…,Yim),代表miRNAmi的相互作用谱;同样,矩阵Y的第j列向量,即Y(dj)=(Y1j,Y2j,…,Ynj),代表疾病dj的相互作用谱。显然,在新疾病或新miRNA的相互作用谱中各元素值均为0,故影响模型的预测效果。因此,在GRNMF算法中,通过利用疾病或miRNA相似性网络以及miRNA-疾病已知关联网络的拓扑信息,基于一个预处理过程构建新的疾病和miRNA相互作用谱来更新原始邻接矩阵。针对miRNAmq,它的新的相互作用谱主要根据其在miRNA相似网络中的K个最近邻miRNA(必须满足至少存在一条已知的miRNA-疾病关联),以及这些邻居节点对应的相互作用谱获得,具体计算公式如下所示:56 博士学位论文1KYmmqi1wYmii()(5.4)Qm其中,m1至mK表示miRNA相似性网络中与miRNAmq最近邻且按相似度降序排i-1mm列的K个miRNA;wi为权值系数,且wi=α*S(mi,mq),α∈[0,1],S(mi,mq)表示miRNAmi和miRNAmq之间的功能相似性,这也意味着与mq越相似的邻居mmiRNA所对应的相互作用谱分配的权值越大;Qm=∑1≤i≤KS(mi,mq)表示一个标准化项。同样的,有关疾病dp的新的相互作用谱可由如下公式获得:1KYddpj1wYdj()j(5.5)Qd其中,d1至dK表示疾病相似性网络中与疾病dp最近邻且按相似度降序排列的Kj-1dd种疾病;wj为权值系数,且wj=α*S(dj,dp),α∈[0,1],S(dj,dp)表示疾病dj和疾d病dp之间的语义相似性;Qd=∑1≤j≤KS(dj,dp)为标准化项。随后,基于所有疾病和miRNA对应的新的相互作用谱分别构建两个概率矩阵Ym和Yd。如前面所述,为了避嫌原始邻接矩阵中过多0元素影响预测性能,根据以上两个概率矩阵Ym和Yd对原始矩阵Y进行更新,具体更新方法如下所示:Ymax(,YY)(5.6)md其中,Ymd(aY12maYd)/aii(1,2),ai为权值系数,为了公平起见,本文将对疾病和miRNA两个空间分配相同权值,即a1=a2=1。5.3.4GRNMF算法描述非负矩阵分解(Non-negativematrixfactorization,NMF)作为一种有效的技术已经被广泛应用到模式识别、信号处理、生物医学等相关领域,它旨在寻找两个低维的矩阵使其乘积逼近原始的高维矩阵。本文中,给定miRNA与疾病之间n×mn×k的关联矩阵为Y∈R,可由NMF将其分解为两个低维的非负矩阵W∈R和Hm×kT∈R(k<

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭