基于热扩散模型的致病基因预测方法研究

基于热扩散模型的致病基因预测方法研究

ID:35015772

大小:7.09 MB

页数:52页

时间:2019-03-16

上传者:U-56225
基于热扩散模型的致病基因预测方法研究_第1页
基于热扩散模型的致病基因预测方法研究_第2页
基于热扩散模型的致病基因预测方法研究_第3页
基于热扩散模型的致病基因预测方法研究_第4页
基于热扩散模型的致病基因预测方法研究_第5页
资源描述:

《基于热扩散模型的致病基因预测方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号密级UDC编号采中钟與火考硕±学位论文基子热朱^散辕型巧改病基巧巧例方法研奔学位申请人姓名;方巧索申请学位学生类别;全巧朵I硕去申请学位学科专业;计义机店巧化术指导教师姓名;钥小华乂投 硕击学位棘吏'MASTERSTMESIS硕±学位论文基于热扩散模型的致病基因预测方法研究论文作著:方明宏指胡小华教授学科专业:计算机应用技术研究方向:生物信息学华中师范大学计龍学院2015年5月 硕壬学位论文MA'STERSTHESIS?Pr-ioritizinDiseaseCausinGenesggBasedonHeatDiffusionModelAThesisSubmittedinPartialFulfillmentoftheRequirementFortheM.S.DegreeinComputerAppUcotionTechnologyByMinhonFangggPostraduateProramggSchoolofComputerCentralChinaNormalUniversitySuervisor:XiaohuaHup\i(/化乂Academ'icTitle:ProfessorSignaturei^ArovedppMay0152 硕壬学位论文?MASTERSTHESIS华中师苑大学学住冷文房刮牲若巧和使用换权说巧居创牲声巧本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研巧成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或。集体已经发表或撰写过的研巧成果对本文的研巧做出贡献的个人和集体,均已在文中^>1明确方式标明。本声明的法律结果由本人承担。;"作者签名:日期^邸參:王年公月巧日^学住冷文狀权使用换权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部口或机构送交论文的复印件和电子版允许论文被查阅和借亂本人授权华中师范大学可朗t本学位论文的全部或部分内竊i入有关数据库进行检索,可W采用影取缩印或扫描等复制手段保存和汇编本学位论文。同意华中师范大学可W用不同方式在不同媒体上发表、传播学位论文的全部或部分内豁^蜗凌<^作者签若:方导师签名:翊年曰期底年曰曰期2&e备月娩:年至月!""本人己经认真阅读CALIS高校学位论文全文数据库发布章程,同意将本人的""""学位论文提交CALIS高校学位论文全文数据库中全文发布,并可按章程中的□半年一规定享受相关权益;;□年;□二年发布。。同意论文提交后滞后作者签名:言的參导师签罕日期:又。攻年全月七5日日期:>〇'(年月巧eJ^ 硕壬学位论文?MASJE民STHESIS摘要近年来,,随着生物信息学领域的迅速发展W及应用人们获取了海量的生物数,逐渐成为生物信息学领域的据,如何从这些海量数据中挖掘出有价值的生物信息研充热点。高通量生物技术的发展为致病基因的预测提供了海量的数据来源,尤其是蛋白质相互作用网络和疾病表型相似性网络等为代表的生物网络很好地表示了基因和疾病之间的复杂关系,为致病基因预测提供了强有力的支撑。""--当前大部分基于计算的致病基因预测方法采用了guiltbyassociation假设,即表现型相似的疾病往往是由功能相关的基因引起的,并且相关研巧己经证明同类疾病相关的基因产物么间发生物理相互作用的概率更高。虽然这些方法在致病基因。预测中取得了不错的成绩,但其预测效果仍有提升的空间因此,本文基于热扩散和多源异构数据模型来研巧致病基因预测问题,主要研究工作如下:一,第当前大部分致病基因预测方法把网络中的孤立节点当成网络噪音,因此这些算法并不能很好地预测网络中的孤立节点。并且现存的方法在预测致病基因时,往往更偏向于网络中度比较大的节点,而对于网络中的稀疏节点来说,效果不是很一理想一。针对上述问题,本文提出了种基于热扩散模型和排名致性原则的致病基一因预测方法NDRC,对1931个疾病的所有已知致病基因进行留法交叉验证。实.验结果表明在预测度化较小的节点和孤立节点方面,NDRC算法性能好于另外H种致病基因预测方法RWR、VAV圧N和PRINCE。最后,将本文提出的致病基因预测方法NDRC方法用于麦克尔综合征1、蛋白C缺乏症和过氧化物酶体生物合成障碍1A因呈现明显的模块特征。,发现复杂疾病的致病基第二,由于高通量得到的生物数据还远远不够完善,这些数据存在严重的假阳性和假阴性问题一,因此仅仅使用种生物数据还不能很好地预测致病基因。为了提一高致病基因的预测精度,本文提出了种基于热扩散和多源异构数据融合的致病基因预测算法NDHD。NDHD算法融合蛋白质相互作用网络、疾病表型相似性网络和蛋白质结构域网络来预测致病基因。实验结果表明NDHD算法在验证已知致病基因和预测新致病基因方面效果好于ProphNet算法。关键词S致病基因预测;孤立节点;稀疏节点;模块特征;多源异构数据I 蜡壬学位论文MA'SrKRSTHI:SlSAbstractInrecentearsiththeraiddevewlomentofbioinfoimaticsanditsalicationy,pppp,eoleetvastamountsofbioloicaldataHlthddippgg.owtoanayzeeseataandgoutvaluableinformationhasbecomeahotl:opicint;hefieldofbioinfbrmatics.Therapid-developme打tofhigh化roughutbiotechnoloiesrovidesasourceofvastamountofpgp-datafordiseasecausinggenesprioritization.Thebioloicalnetworkssuchasroteing,pinteractionnetiseasehenotesiilaritnetllreresentshworksanddpypmyworkweptecomplexrelationshipbetweengenesanddiseases,andprovidesupportfor-diseasecausingenesrioritization.gp""--ionalstrateiesfollowauiiMostcomp山atggiltbyassocatonapproachwhere,similarhenotesareoftencausedbfunctionalrelatedenesandenesassociatedpypyg,githsiilardisordershavebeenshowntodemonstratehiherrobabiiilwmgpltyofhscapyinfractionsbetween化eireneroductsAlthh1hedelhievedlti.ou;semosacoodresusngpgg-termsofdiriseasecausnenesredictionthereisstillroomforimovement.Thisggp,ppaermainlfocusesonrioritizindiseasecandidateenesbasedonheatdiffusionpypggheteroeneousdata.Themainornaudemodelandgigilworksincl:M-1ostextantdiseasecausinenesrioritizationmediodtendtotreatdanlin()ggpggenelisoatedeneasnetworknoise化ereforeadanlinenewi比打oedesintheg(g),ggggnetworkcannotbeefectivelyrioritized.Thesearoaches化ndtorioritizethoseenesppppg1:hatarehihlconnectedin化ePPInetworkwhileerformoorlwhenthearealiedgyppyypptolooselconnecteddiseaseenes.Toaddresstheseroblemswerooseanewygp,ppd-iseasecausin呂genesprioritizationmethodthatbasedonnetworkdifusionandrank--concordanceNDRC.Themethodisevaluatedbleaveoneoutcrossvalidationon()yil1931diseasesinwhchateastonegeneisknowntobeinvolved.Theexperiment!化suitssuestthatND民Csin巧cantlouteiforms0化erexitinme化odssuchasgggypgRWR,VAVIENandPRINCEonidentifyinglooselyconnecteddisea化genesandsucce巧fullutdanlinenesasotentialcandidatediseaseenes.Furthermoreweypgggpg,'ai;rclNDRCme化odtosUdthreeeiesentativediseasesMekelsndrome1Prot;einppyyp,y,CdeficiencyandPeroxisomebiogenesisdisorder1A(Zellweger).Ourstudyhasalso*i-lifbundt;hatcertancomexdseasecausinenescanbedividedintosevealmodulespggr化atarecloselyassociatedwithdiferentdiseasephenotype.heh-2Dueihhhubiitottroutolocaldataisfarfromerfectandthesedataare()ggpgp,reortedtoexhibithih^Iseositiveand枯Iseneativenoisesowecannotrioritizepgpg,psese-snononeaad.iacauiggeneswellbylybiologicaldtWeproposeanewd-iseasecausinggenesprioritizationmethodthatbasedonnetworkdiffusionandu 硕壬学位论文MA’?STE区STHESISheteroeneousdataNDHDtoimrovetheerformance.NDHDinteratesroteing()ppgpinteractionnetworksiseasehenotesimUaritnetworkandroteindomai打net,dworkpypyp*t-toredkdiseasecausinenes.TheexerimentaliesultsshowtihatNDHDshows过pggpsihtadvantaewhencomaredtoProhNet.lggppKssease-causeword:diinggenesprioritizationdanlinenelooselconnectedy;ggg;y;modulesheteroeneousdata;gIII 硕去学位论文M’toMASTERS化gy目录摘要IAbstractII0录I第一章绪论11.1论文研究背景1125.论文研巧意义1.3论文的组织结构6第二章致病基因预测相关研巧72.1致病基因预测问题的定义72.2疾病相关生物网络72.2.71蛋白质相互作用网络22..2疾病表型相似性网络82-.2.3疾病基因相互关系网络82.3致病基因预测方法研巧进展92.4致病基因预测相关工具10一致性原则的致病基因预测算法第兰章基于热扩散和#名12311.引言2一3.2基于热扩散和排名致性原则的致病基因预测算法133.2.1数据预处理143.2.2热扩散模型14一3.2.3排名致巧原则163.3实验及结果分析17331..实验数据集173.3.2算法评价173.3.3实例分析2034本章小结23.第四章基于热扩散和多源异构数据融合的致病基因预測算法244.1引胃2442基24.于热扩散和多源异构数据顯合的致病基因预测算法 硕击学位论文'MASTERSTHESIS42127..网络内部热扩散42.2网络之间热27.扩散4.2.3相关性计算284.3实验及结果分析2843.128.实验数据集4-3.2算法评价2843..3实例分析304.4本章小结32第五章总结与展望345134.总结一5234.进步研巧工作参考文献35攻读硕±学位期间参加的科研项目与公开发表的学术论文42致谢43 硕壬学位论文^ASTErSTHESIS第一章绪论1.1论文研究背景美国科学家在1985年率先提出了人类基因组计划(humangenomicproject),该计划于1990年正式启动,人类基因组计划的提出,意味着生物信息学由对细胞单个基因和蛋白质功能的局部研巧转向对生物的整体结构和功能、生物系统的运作W(sl)机理的研究阶段,把我们带入到了系统生物学ystembioogy时代。人类基因組测序的完成,意味着生物学家的研巧重也已经慢慢从基因组学转移到了蛋白质组tui学(proteomics)。蛋白质由氨基酸组成,是人体生命活动的主要承担着。人体、、内大部分生物过程,例如免疫反应新陈代谢细胞信号传导W及细胞周期调控都456^[’’’^是通过蛋白质之间的相互作用完成的。同时蛋白质为疾病致病机制的揭示和新药研制等研巧奠定了坚实的基础。生命体内蛋白质之间的相互作用称为蛋白质相互…(rote-workinroteininteractonnePI。作用网络ppit),简称P网络>近年来,随着生物信息学领域的迅速发展^1及广泛应用,科学家获得了前所未有的生物数据,数据内容也出现了从生理数据向遗传信息数据的快速发展,如何对,逐渐成为数学家这些海量生物数据进行分析并从中挖掘出有价值的信息、计算机一-学家和生物学家面临的巨大挑战,easttwohbrid。另方面随着酵母双杂交技术(yy9111213[’[’’]sstem)气串联亲和纯化技术(tandemafiniturcaton,TAP)yypifii、质谱"4】分析技术(massspectrometiy)、蛋白质总片技术(proteinchips)和礎菌体显aedisla)等为代表的高通量蛋白质组技术的快速发展示技术(phgpy,有关蛋白质相互作用的数据越来越多Internet上己有大量公开的蛋。目前白质相互作用数据库。例如在蛋白质网络研巧方面,蛋白质相互作用数据库DIP(DatabaseofInteractionProteins)包含了多个物种的蛋白质相互作用数据互作用数据库,人类蛋白质相tWHPED(HumanProteinInteractionDatabase)、醇母蛋白质相互作用数据库YPD19[YP]化(eastroteinDatabase)、相互作用综合数据库GRID(GeneralReositorrpyPInteractionData)哨日慕尼黑蛋白质序列信息中也MIPS(MunichIn抗rmationCenter2,[]forProteins巧uenc放)等。蛋白质网络(PPI网络)是生命体内重要的复杂网络系统。对蛋白质网络结构s一Pi,的分析过程中,常常用图来表示个蛋白质网络,在这样的图中基因或者基因的产物蛋白质表示为节点,图中两个节点之间的边表示两个蛋白质之间能发生相互作用。通过引入图论、机器学习、统计分析和数据挖掘等技术,研充人员可设计并1 硕击学位论文'?MASTERSTHESIS挖掘不同层次的蛋白质网络的组织结构,在,。例如致病基因预测中根据""u--giltbyassociation原则,表现型相似的疾病往往是由功能相关的基因引起的,因此可用与它相互作用的基因来预测致病基因。对蛋白质网络的研充与分析是极具挑战的,相关研究人员对蛋白质网络的研充内容包括:(1)蛋白质网络拓林结构分析口3B]巧99年arabasi和Albert在Science上提出了无标度网络的概念,无标度网Power-la络是指网络的度分布服从(或近似地服从)幕律分布(istribution)wd,-Y一Pk=k,其中Y为某常数指数()。无标度网络的典型特征是网络中的大部分节点、的度很小,而网络中少数节点的度很大,送种关键的节点称为中屯节点化ub)。在无标度网络中,当2《3时,送些hub节点在网络中起到了非常重要的作用y《。在现实中生活中,无标度网络比比皆是,例如交通网Itt、电话网、人际关系网和nerne一网,图1.1是个人际关系网示意图,中间少数人和其他人有大量的连接,而大多数人处在网络的边缘,只和少数几个人熟悉。??参參》t???????????,?????,?????????..?.???'.?A?i、???々言?‘.?;槪'??A之?#V??.為攀;餐??A?克..一??:*?n;.?????..:.*、’?????巧.々.?.巧?*巧.?.图1.1人际关系网络示意图PS2627,,3,蛋白质网络也符合无标度网络的特性最近的科研成果表明,网络中节2 巧击学位论文MA'STERSTHESIS-yP=PPI点的度分布满足幕律分布,即fcfe。网络中的大部分蛋白质之间仅仅发()生了少量的相互作用,而对人体的生存起着非常重要的少量hub蛋白质却与其他蛋白质大量的结合。""一蛋白质网络的另个典型特征就是小世界效应,小世界网络指网络中的大。部分节点并不是彼此相连的,但节点之间经过少数几步就可到达小世界网络的主一要特征表现为网络具有较小的持征路径长度和较髙的聚集系数。现实生活中系列S9DP1PP网络I例如虹temet网、英语词典喃科研合作网嘟具有小世界网络的特性。最近研巧者通过对人类的蛋白质网络、幽口螺旋菌、大肠杆菌、家鼠、醇母、线虫和果蜡7个物种的网络拓朴结构进行分析,发现这些网络的特征路径长度较小,而tW聚集系数比较高。研充发现幽口螺旋菌、大肠杆菌、家嚴、酵母、线虫和果幌6""个物种的特征路径长度满足六度原理的特征,即它们的特征路径长度均小于6。Pi]535这7个物种的蛋白质网络特征路径长度都小于6.,大于.。相关研巧也表明,-一i个完全的随机网络中,W(N为网)在网络的聚集系数近似等于络中节点的个数,但是送7个蛋白质网络的聚集系数都远大于蛋白质网络的小世界特性使网33,34,3^6一11络存在明显的模块化特征,研巧者可^利用这特性在蛋白质网络中挖掘致病基因功能模块(2)蛋白质复合物挖掘33M3536[’’’]相关研究表明,蛋白质网络呈现明显的模块化特征,每个蛋白质模块通常对应着相应的蛋白质复合物。蛋白质复合物是指在相同时间和空间通过相互作用形成的一群执行某种生物过程的蛋白质。如何正确地挖掘蛋白质复合物在了解细胞功能机制和预测致病基因的过程中有着非常重要的作用。目前研巧者主要利用基s于图的数据挖掘算法来挖掘蛋白质复合物P]算法通过不断迭代地去除高介数。GN的边来挖掘蛋白质复合物一一,它是种全局的聚类算法。另外种全局的聚类算法39MC。每法通过执行扩充(expansion)和膨胀(inflation)两个步骤,基于随机游走技术,,将蛋白质网络划分成若干个互相不重叠的子网络每个蛋白质子网络对应w一t’W一个蛋白质复合物。MCODE算法是种局部的蛋白质复合物挖掘算法,MCODE算法用每个节点的局部邻居密度给节点加权,并将具有最大权重的节点作为初始网络的种子节点,最后从种子节点开始扩充并得到相应的蛋白质复合物。为了提高蛋白质复合物的挖掘精度,相关研巧人员将其它生物信息和网络的拓扑结构42[相结合来挖掘蛋白质复合物。King等巧リ用GO功能注释信息来衡量蛋白质之间的功能相似性,然后结合蛋白质网络的拓化结构来挖掘蛋白质复合物。(3)致病基因预测3 硕壬学化论文MA'?STERSTHESIS一个基本挑战就是如何有效地识别并预测致病基因人类健康面临的,人类基因一组精确图谱的绘制成功,也,不但使科学家更进步了解疾病的发生机理改变了科学家对致病基因的认识。目前大约有6000多种疾病与人类密切相关,并且这6000一多种疾病都与致病基因有定的联系。根据基因突变的程度,研究者将疾病分为单基因疾病、多基因疾病、染色体疾病和线粒体疾病4大类。43一t(Monoencease)单基因疾病gidis堪指由个基因控制的疾病或病理性状。常见的单基因疾病有慢性进行性舞蹈病、白化病、苯丙丽尿症、色盲和血友病。在6000多种与人类相关的疾病中,大约有4000多种疾病是单基因疾病。尽管单基因。疾病的数目很多,然而患有这类疾病的个体仍然是很罕见的M(多基因疾病复杂疾病,Complexdisease)是由多个致病基因的累积效应所,这类疾病多受环境因素的影响导致的遗传病。与单基因疾病相比,多基因疾病不仅仅由遗传因素决定,并且还受生活方式和环境因素的影响。多基因疾病是人类常、血管病见的疾病,常见的多基因疾病有精神分裂症、先天崎形和也。图1.2是单基因疾病和复杂疾病的对比图。W5染色体疾病(Chromosomedisease)诣由于染色体的数目或形态、结构异常造成的疾病,常见的染色体疾病有唐氏综合症和先天愚型。一线粒体疾病(Mitochondrial出sease)是由于线粒体的功能不正常而导致的些疾病,这类疾病可W影响包括大脑、也脏和抓肉等身体的任何部位。常见的线粒’体疾病有线粒体神经胃肠脑肌病和慢性进行性眼外化麻瘍综合征。4 硕壬学位论文'?MASTliRSTHUSIS100HHi....单圓'^‘祕II叛卿P■0HIwihvvitfiout病tI单个基因genegene遗传方式(盛it或隐化)人群中的风险H100im;.…:..多、^iTT^甚1^;…一!一—^—.一因心择,^|5^"""^ ̄ ̄刪"*n-?T。i、多个馨阻flffe方式人辭中的风腔(生活方巧、巧境等因素)(li;巧)W图1.2单基因疾病和多基因疾病区别一了解疾病的发生机理,预测疾病相关致病基因,仍然是科学家们的个重要的挑战。在目前己知的6000多种与人类相关的疾病中,很多疾病的致病机理和与其wsi相关的致病基因还未被挖掘出来,因此致病基因预测的问题仍然是当前生物信息■学研究的重点。1.2论文研究意义随着高通量生物技术的快速发展,研巧人员积累了海量的生物数据,利用这些数据构建各种复杂的蛋白质网络,是蛋白质复合物挖掘和致病基因预测的基础。近、,虽串联亲巧纯化技术年来然研巧人员己经利用酵母双杂交技术、质谱分析技术、蛋白质芯片技术和幢菌体显示技术等为代表的高通量蛋白质组技术发现越来越多的与疾病相关的致病基因,但是大部分的致病基因是未知的。如何更好的了解疾病一的致病机理,预测出更多的致病基因是人类遗传研究中个很重要的挑战。有效的预测致病基因可W促进基因组学的发展,随着研究人员对疾病的致病机,人们预测致病基因的策略可能会发生改变理和复杂网络更深入的理解。传统的基一因预测方法,如基于基因定位的方法,通过将候选致病基因的位置锁定在某个区域内,然后通过大量的生物实验预测这个区域内的致病基因。但是该区域可能包含几百个或者更多的候选基因,并且大部分基因与所研巧的疾病并不是相关的,因此5 硕壬学位论文'MASTERSTHESIS基于基因定位的方法是非常耗时的,。几年来越来越多的研巧人员考虑用基于计算。的生物信息学方法来预测致病基因,因此极大的促进了基因组学的发展13.论文的组织结构,全本文重点研巧了致病基因预测的相关问题文共分为五章:第一章一,介绍了生物信息学的些背景知化蛋白质网络的研究现状及本文主要的研巧内容。二,第章,首先介绍了致病基因预测问题的基本定义致病基因预测的主要研巧内容,。然后介绍了致病基因预测的相关生物网络和目前的研巧进展最后介绍了现一些致病基因预测工具有的。第H章,首先分析了现有的致病基因预测算法的缺陷。现有的方法不能很好的预测网络中的孤立节点并且预测结果更偏向于网络中度比较大的节点,而对于网络一中度比较小的节点来说,效果不是很理想,。针对上述问题本文接着提出了种基一致性原则的预测致病基因算法NDRC于热扩散模型和排名。然后对1931个疾病的所有己知致病基因进行留一法交叉验证,实验结果表明我们的算法NDRC效果好于RWR、VAVIEN和PRINCE算法。第四章,针对目前高通量数据的不完善并且送些数据存在严重的假阳性和假明一性问题,提出了种基于热扩散和多源异构数据融合的致病基因预测算法NDHD。NDHD算法融合蛋白质相互作用网络、疾病表型相似性网络和蛋白质结构域网络来进行致病基因预测。实验结果表明NDHD算法在验证己知致病基因和预测新致病基因方面效果好于ProphNet算法。第五章,本章节首先对全文的研巧内容和研究结果进行了总结,然后结合研巧一过程中的问题对下步的研巧工作提出了展望。6 硕击学位论文''RSTH'?MASTllSlS第二章致病基因预测相关研究2.1致病基因预測问题的定义一PP=^致病基因预测的基本问题描述如下:给定个I网络6^1/是PN网{^巧,一络中基因(或者基因的产物蛋白质)的集合,£是PPI网络中边的集合。给定个疾病0和候选基因集合C(CGl〇,对于每个候选基因vOeC),计算r与疾病D表型之间的相关性得分£(的D),然后对毎个基因的相关性得分a(u,巧进行排序来预测潜。21在的基因与疾病么间的关系大多数预测致病基因的工作原理类似,如图.所示,首先分别从数据库中获取到候选致病基因和己知致病基因,然后把这两类基因都映射到PPI网络上,最后通过计算的方法,对所有的候选基因进行打分并排名,根据21最终的排名结果,预测潜在的致病基因。从图.中可看出,不同的致病基因预、工作在于PP测方法的核屯I网络中基因相似性的计算和对候选基因进行打分的算法。除了使用PPI数据来预测候选基因和特定疾病么间的关系,其它用于候选致病基因预测的常见生物数据有:蛋白质结构域、基因表达数据、基因功能注释信息和相关4911生物医学文献等。d候违致病藍留映+己知致病基因巧射到巧据与己巧致病基固的狸离巧賓巧对巧分结粟迸朽i巧到PPI网巧PPI巧巧化往巧所有校定致病基因进巧打分/。.4別画、店r说①"。同\卢I'*地曲薄;\叫.!\/Ij\致0.1020.1021感\@:(:!:筑;if緣图2.1致病基因预测框架2.2疾病相关生物网络近年来,伴随着生物数据的快速增长和人类基因组计划的完成,研巧人员已经建立了多种蛋白质相互作用网络和疾病表型相似性网络。这些复杂的生物网络己经日渐成为致病基因预测的一个重要平台。致病基因预测中经常采用的生物网络有H-种:蛋白质相互作用网络、疾病表型相似性网络和疾病基因相互关系网络。2.2.1蛋白质相互作用网络蛋白质是构成生物体的重要组成部分,蛋白质分子之间的相互作用构成了蛋白7 硕壬学位论文’—#MASTERSrHESIS-(ProteinProteinInteractionPPI)质相互作用网络,蛋白质相互作用网络为预测致病,一基因提供了可靠的信息来源,,任何种疾病在症状前期都会引起体内蛋白质的巧化。。因此确定与疾病相关的蛋白质是致病基因预测的基础蛋白质相互作用网络具tw有无标度性、小世界性和层次性结构等性质。常见的蛋白质数据库有HPm、i9[PPU一1GRYPD、ID]MIPS等2.1些常见的PPI数据库及其对应网址。哨。表是表2.1常见巧I数据库数据库名称网址IHPIDHumanProteinInteractionDatabasehttp://www.hpid.om()YPDYeastProteinDatabase)http://www.Droteome.coniAfPDhometni1(.hGRIDGeneralReositoryforInteractionDatahtt://thebiogrid.org/(p)pMIPS(MunichInformationCenterforProtein,^,http://mips.gsr,deSeuencesq)MINTMouh//mi.larInteractionDatabaet:ntbio.uniroma2.i/niin/lecs)ptt(PINdbProteinsInteractingintheNucleus)http://pininskcc.org/(HPRD(HumanProteinReferenceDatabase)http://www.hprd.org/2.2.2疾巧表型相似性网络疾病表型相似性网络表示的是不同疾病表型么间的相似性度量。疾病表型数据是从人类孟德尔遗传学数据库(OnlineMendelian虹heritianceinMan0MIM)中提,取的。疾病表型相似性数据主要根据vanDriel等人利用文本挖掘的算法计算出来.的anOriel.61。根据v等人的研究分化在区间阳,]之间的相似性值提供了可靠的衡量疾病表型相似性的信息,而在区间化0.3的相似性值被认为是无效信息。]-2.3.2巧巧基因相互关系网络-基因相互关系也是从0M疾病IM数据库中提取的,描述的是与人类相关的疾病和其对应致病基因的关系,,两音之间的关系越强说明该基因就越有可能与该疾病相关联。图2.2显示了致病基因预测中的S种生物网络:疾病表型相似性网络(Human-DiseaseNetwork)、疾病基因相互关系网络(DISEASOME)、蛋白质相互作用网络(DseaseeneNework)。在疾病表型相似性网络中iGt,如果两个疾病么间有边相连,说明这两个疾病有相同的致病基因。同样的,在疾病基因网络中,如果两个基因都一一-与同个疾病相关,那么这两个致病基因之间有条边。在疾病基因相互关系网络。中,毎种疾病与它己知致病基因之间有边相连8 巧壬学位论文'MASrHRSTH-?ISfS?赢、基因框互关系网络DISEASOWdiiseasedseaseenegHumanDiseassNetworkDiseaseGeneNetworkWfiftrtwW疾病表现型网络Wa*疾病基因网络Ui<?<tAfU??ayow*wv#Ch■巧Ma**%w*^?^一WBWN*…'MOW1jUUS*??c?嗦料mxu鐵…猶A控全0^,蜘M咖咱^t.、.如w齊?叫‘.'读-??^^w-7早\’、ram':;\^aitcnt^/?u;V.mm^r^w'PA*rVSa?..Mitet?.t*ym^y^'化》巧,dkf对M么,M')W:的1?W:?,?<Sl^(皇^ii^ASCL2v*hi.iOSriM%mchtWiTrrmf,p^^gHIS*t4:ann*!ip4c<1V^^jj副>.j53I1图22-.疾病基因相互关系网络2.3致病基因预測方法研究进展近年来,己经有越来越多的基因被预测并确认为致病基因,我们可W基于这些信息并利用计算的方法来预测致病基因一。种常见的方法是基于这些基因的生物数据,如蛋白质的序列信息、基因的功能注释信息,甚至多种生物数据的异构融合来54AdI1衡量候选基因与己知疾病的致病基因之间的相似性ie。例如等人根据人类遗传病基因和未知基因之间的序列特征存在着显著差异,选取基因的序列特征作为决一,SPECTR策树的分类特征提出了种基于决策树模型的致病基因预测方法PRO。w一tSchlkeicr等人根据己知致病基因和候选基因之间的功能注释相似化提出了种根据疾病的配置和功能配置之间的相似性对候选致病基因进行打分并排序的致病基因预测方法MedSim。Endeavour等人融合了多种生物信息,如基因调控信息、基因序列信息、基因本体、功能性注释、蛋白质相互作用网络和基因表达数据等。首先根据每种生物数据与己知疾病间的相似性对候选基因进行排名,然后用统计学的方法计算出候选基因的综合排名。在生物数据足够多的情况下,Endeavour能取得很好的预测效果。但是这些方法不仅仅依赖于候选基因和被比较基因之间相似度,还依赖于把疾病按照疾病表现型相似进行划分的准确率的精确率。考虑到不同疾一病的表现型在临床上可能出现重叠,个更可行的方法就是根据这些疾病的临床表9 /^K\硕树位论文'MASTERSTHESIS"""--现对候选基因进行排序,也就是说我们可根据基因疾病表型而不是基因"疾病的关联度来预测疾病基因。""u--根据iltbassociation原则,表现型相似的疾病往往是由功能相关的基gy因引起的,并且相关研巧己经证明同类疾病相关的基因产物之间发生物理相互作用的概率更高,因此可W通过基因与疾病表现型相互作用网络来预测疾病基因。KohlerSP一等人l提出了种基于随机游走的致病基因预测方法,该方法首先将候选基因和已知致病基因映射到PPI网络中,然后用随机游走算法计算出每个候选基因的得分,最后根据候选基因的得分进行排序u一。W等人提出了种基于回归模型的致病基一-因预测方法CIPHER,Wu等人在己知的疾病基因的基础上,建立了种基于PPI网络和疾病表型相似性网络的线性回归模型,首先计算出查询疾病和其他疾病之间iProfile的相似性向量(Smilarity),然后计算出候选基因和查询疾病的所有己知致病基因之间的接近中也性向量(ClosenessProfile),最后通过线性回归模型计算这V一PP两个向量的相关性并对候选基因进行打分。anunu等人堪出了种基于I网络和疾病表型相似性的致病基因预测方法PRINCE,该方法通过在PPI网络中模拟信息的传播来预测候选致病基因,PRINCE方法不仅能够预测致病基因,并且还能够识别与致病基因相关的蛋白质复合物。根据人类遗传病的模块化特征,同种疾病的致病基因在网络中往往彼此相邻并且具有相似的注释信息和其它恃征,。此外研究表明同种疾病的多个致病基因可能也就是说与相同表现型相关的致病基因可能位于同一形成多个子网,个生物模块。Chen等人利用致病基因的模块化特征,先把基因划分为若干个模块,然后在每个模块里面对候选基因进行排序,最后利用递归算法得到每个基因的全局排名。2.4致巧基因巧巧相关工具通常情况下,研巧人员会把他们开发的疾病基因预测工具发布在Internet上,S一P2I.2是些常见工具的名称和相应网址。CIPHER免费供研究人员下载使用,表6263Wlltl主要利用回归模型来预测致病基因。Endeavou、Suspects、BioGraph、7^TatWtrgetMine和GeneFriends都是融合多种生物数据结合基于计算的方法来计算DlW候选基因的排名。Genei泌Uer融合多生物信息并利用老鼠表型对候选基因进行wti过滤。GenTrepid综合利用结构生物学和系统生物学的计算方法预测致病基因。'666MMtea^iminer硝用文本挖掘的方法计算出人类疾病表型相似性数据。PolySrcW一是个综合的生物信息检索工具,对于某个给定的实体,用户可{^;查询所有与这个实体相关的疾病,、组织或者基因/蛋白质的名字。例如用户可W査询所有与乳腺癌10 /5i\硕去学位论文||MA’STERiJTHESfS69Tt^相关的致病基因。oppGene同时利用老鼠表型数据和人类基因注释信息预测致病基因。表2.2致病基因预测相关工具名称网址wLJhCIPHERttp://bioinfo.au.tsinghua.edu.cn/cipher/ciphersearch.html^-Endeavourhtthometkul.bioihp://s.esaeuvenbe/iuser/endeavour/ndex,pp阿Suspe旅htp://www.cgem.ed.ac.uk/resources/suspects/BioGrah岡htt://www.biograh.be/ppp批*GeneDistillerhtp://www.genedistiller.org/GenTreid脚ht://www.gentreDid.org/ppMimMine削ht/wwwi/MimMer泛i-binirp:/.cmb.ru.n1in/c/man.pl6/LJhPolySearchttp://wishart.biol〇gv.uaiberta,ca/polvsearch/index.htmTaretMine脚Jhtt://targetminci.om/gp,mzuguchnab69TGLJhtoppeneps://toppgene.cchmc.org/ ̄'uGiJeneFriendshtt://genefriends.org/p11 硕去学位徐文MA'STERSHESIST第E章基于热扩散和排名一致性原则的致病基因预測算法3.1引言虽然研巧者提出了很多基于计算的方法筛选潜在的致病基因,但是大多数方法并没有考虑网络中的孤立节点,也不能很好地预测网络中的稀疏节点。(1)目前很多方法在预测致病基因时,没有考虑网络中的孤立节点(dangling/isolatedgenes),这些方法往往把孤立节点当作网络中的噪音节点。如图一一3.1所示,基因化2是网络中的个孤立节点。如果个节点在网络中没有和其他任何节点相连,那么现存的方法无法预测出送些孤立节点。实际上,在现实网络中,这些孤立节点还是有一定的概率被预测为致病基因的。DanglingodeNGmieNcttwork31图.网络中的孤立节点a)现存的方法在预测致病基因时,往往更偏向于网络中度比较大的节点,而对于网络中度比较小的节点来说,效果不是很理想。然而相关研巧表明,大多数致病基因分布于网络的边缘,从图3.2中我们也可W看出PPI网络中大部分致病基因的度比较小。12 硕击学化论文’?MASTERSTHESIS0■ ̄■-*.35X£IIcI[rT「!3——0■?oTi-氏巧-3———.E遲'(AJS。-.2j霆口-rlafPliB.Dinmiriw’li{BBBHI■屋iBBWlShHwwIHiWHiliJiiiifcfaiSHIIBitfeiaB■BSSI^SB■■■riMHiJ>Q-^-8■化-33>64 ̄123591732肪口81292说257d-dereeofiseaseigcausngenesg图3.2致病基因度分布一NDRCN因此,我们提出了种新的预测致病基因的算法(etworkDifusionand民一ankConcordance)来解决上述两个问题。第,我们不仅没有把孤立节点从网络,中删除,而是在不改变网络基本拓扑结构的情况下在孤立节点和网络中其他节点一7it之间生成了条虚拟边。第二,基于DifusionRankND艮C模喧法,拟热扩散的过,信息从己知致病基因出发然后在整个PPI网络中传播,程。同样的在预测致病基"一因的过程中,DfiisionRank也可能偏向于度比较大的节点,因此我们采取了种排"""一的方法来平滑网络中候选基因的排名。与传统的u--名致性giltbyassociation方法不同的是,我们的方法不仅能很好的预测度比较大的候选基因节点,对于度比,较小的节点,我们的方法也能取得很好的效果并且NDRC也能把那些孤立节点当一步分析作候选致病基因W供科学家进。3一.2基于热扩散和排名致性原则的致病基因预測1[法NDRC算法主要包括了下H个步骤:(1)对PP1网络数据进行预处理,为了提島网络的健壮性,我们把网络中的孤立节点嵌入到PPI网络中。(2)模拟热扩散的过程,热量从已知致病基因出发然后在整个PPI网络中传播。"一致"(3)根据排名性的原则对候选基因进行排序。13 硕壬学位论文'STHESMASTERIS3.2.1巧据预处理在PPI网络中,两个节点之间是否有边需要通过实验验证,并且人体中大多数分子之间的相互作用仍然是未知的考虑到送个原因,网络中的孤立节点仍然是有一定的参考价值的。如果我们把这些孤立节点嵌入到PPI网络中,那么这些孤,33立节点也可W在PPI网络中传播信息如图.所示:"乂DanglingNod*产、Pbftnotyp*Network口了ii图3.3处理孤立节点3在图.3中,疾病di、d2和C?4的已知致病基因分别为的、P2和化,并且疾病如、屯、d和d表型都和被预测的疾病Q表型相似,我们需要预测疾病的致病基因。PPI34Q网络由基因的化2组成,图中黑色的直线表示两个基因节点之间有相互作用,W庚示表示边的权重一。从图中我们可W看出,基因Pl2是网络中的个孤立节点(没有与其他任何节点相连)。在NDRC模型中,我们假设孤立节点能够W相同的概率向网络中其他节点传播信息一,因此我们认为基因P和PPI网络其他节点之间存在着条l21W,W是PPI网络中虚拟的边,并且边的权重为/所有节点的数量。因为1/W《W,f所W我们并没有改变整个网络的拓扑结构,同时把基因P当作被预测的疾病表型l2Q的候选基因。3.2.2热矿散模型DifiisionRank最初用热扩散模型进行网络垃圾邮件处理,近几年来也用在致病745[7’]NDRC中PPI网基因预测领域。在我们的模型,热内核建立在络上,网络上热量的流动表示信息的传播,两个基因么间的边可W看作热量流动的管道。当热量在网络上传播一段时间后,网络中每个节点的热量可W看作候选基因的得分。热扩散模型的详细过程如下:一给定个无向图杯,F},K是图中节点的集合,E是图中边的集合。/的表示在t时;41 /jim\硕壬学位论文'MASTERSTHESISUA?刻节点的热量。假设在时刻t,每个节点U在t时间内从它的邻居节点V接收到的fij热量为M(化巧,At)。那么节点巧在At时间内从邻居节点巧接收到的热量M的?巧,At)一应该和U?巧,之间的热量差值的成定的比例关系。根据这个假设,于是j我们可W得到如下的公式:MvVAt=-t,((t){i,j)yJfi))口苗jiy是热扩散系数。因此节点巧在时刻t和t+At时刻的热量差值等于该节点从所有邻居节点接收到的热量:-=-的/的/(/倘)口.2)乃!^/}的J:(vVeE,ji)我们把这个公式展开写成矩阵的形式:/(t+At),、-立^鮮的(3.巧灯是热扩散矩阵,//的形式为:0=ifii(片化='?-4乃^似呵)…、口)"槪啼1^一0W的权重,W为节点度,。如果At那么我们可W把公化巧)是边化,呵)的)呵的式写成=州化集化))口巧解这个方程,我们得到=eyw036/的/(.)()〇是巧始时刻0网络的初始热量,根据泰勒公式,我们把展开为/()2233yfyf^H=3…e/+打+3.7()么'<3■其中J为单位矩阵,。矩阵为热内核热量可W从初始节点开始无限的在网络中传播。P0艮WR1一类似于随机游走算法,源节点和网络中其他节点存在着种随机的连-。1:接关系,^,也,即使它们并不相连这里我们用来表示这种随机关系就是说热量在网络中传播的过程中,节点可的概率跳转到初始节点,节点的概率在当前边继续游走。根据上面的描述,我们可W把NDRC算法写成W下形式:=卿R=//-e(0)入+1又3./的/.(片(巧K是网络的初始热量向量(先验知识)。但是在实际应用中,由于的时间复杂度很高,我们使用的是公式的近似表示:15 硕去学位论文MA'STERSTHESISMt化='+巧0)八)口巧(若)特别的,我们有Mt/y、=/巧/00+/(〇)3.10)((方)M一0一八1)是节点的最终热量分布,是个正整数。由于/()是个向量,我们可MtMZ一通过/〇)与a+巧相乘来迭代的计算(f+巧。因此,在每个迭(;听巧MM代的过程中,我们得到每个节点的热量:s=l-s---U+a^s+(lX)y)3.()(^)^YanPU一一根据的分析,g等人,对于个给定的阐值£我们总能找到个正整数M'"-W满足八0的和为l并使得(J+/^e)0。在实验中,我们分别设置y、)/()(ミy||一M和1为1、100和化9。当在整个PPI网络上进行热量传播后,我们可W得到个,并且根据这个得分向量对候选基因进行排序得分向量S。一3.2.3排名致性原则根据W上描述我们得知,NDRC在预测致病基因的过程中,也可能偏向于度比一较大的节点。实际上,NDRC的般化形式是:■■-S=XS+1Xy3(.1()巧一从这个般化形式可W看出,NDRC也可W看成自重启的,当y无穷大的时候随机游走民WR=l,RWRWI。,当y时变成了普通的随机游走RW因此对于任何的0<X<1,11\化可1^看成民\¥加上先验知识^。对于1^来说,在趋于稳定的情况下,巧始节点到达每个节点的概率服从分布:=TTv3.13()^76V的度[1W明显偏,s网络中边的数量。3.13,R屯是节点l|是从公式可看出向于网络中度比较大的节点,节点的度越大,那么这个节点被访问的概率越大。根一据RW算法,对于个度比较大的节点来说,它被访问的概率会更大,但是如果每次迭代都考虑先验知识,那么度大的节点被访问的概率就会越来越大。因此我们可W在预测度比较小的节点的时候,不考虑任何先验知识。考虑到NDRC算法对度大的节点有比较好的预测效果,RW算法对度比较小的节点效果较好,我们同时用NDRC算法和RW算法来预测致病基因。然后把两个算法的最好得分看成某个基因的最终得分。也就是说,我们定义Rr:far为ix/comamlaueNMC把)RwMC(")<RrW的KP(1,)-=P014、ranfcWJconcordana如wtherwise(的O16 硕壬学位论文MA'STERSTHESIS巧WDecO)、馬iwO)分别为NDRC和民W算法计算的候选基因u的得分,巧V的最终得分。ranfc的是候选基因。。。。。^*。。。上就是我们算法的基本思想,利用热扩散模型来预测致病基因。我们选择已一知致病基因作为初始节点,对每个初始节点赋予定的热量,然后这些热量在整个"PP一I网络上传播,当传播趋于平衡时,每个节点会得到个得分,然后我们用排名一致性"的原则来平滑整个排名。最终得分较高的基因被预测为真正致病基因的概率越大。3.3实验及结果分巧3.3.1实验巧据集778P,我们从Erten等人媒取到PPI网络,整个PPI网络包含8845个蛋白质和33528个相互作用。并且,8845个蛋白质中含有32个孤立蛋白质,送些蛋白质和其他蛋白质没有任何相互作用。我们不但没有把这32个孤立蛋白质从网络中删除,而是根据Jl上l^描述把这些孤立蛋白质和其它蛋白质通过假设的虚拟边相连。932542一我们的数据集也包括了11个疾病,个致病基因。每个疾病至少与个Pzi。anDrie致病基因相关联疾病之间的相似性由vl等人通过文本挖掘技术计算。在一送里一,我们用个逻辑回归方程i来计算先验知识y。特别的,给定个与疾病巧。相关的基因V:,基因V与疾病化^的相关程度可W用W下公式计算Lsim-((如,扣))口北)1,+如,SimV其中(如,gj表示疾病9与疾病的表现型相似度anunu。。根据等人的推荐,我们设置讯d分别为15和log巧999)。特别的,如果基因U和若干个疾病都相关,那么我们选择和疾病g。表现型最相似的的疾病。3J.2算法评价LOOCVl--t-(lt我们用eaveoneoucrossvaidaion)测试来验证我们方法的有效性,在每一轮测试中,我们把疾病5。的某个己知致病基因1;看成目标基因并移除,把疾病仇下已知致病基因和其他与疾病相关的基因当作种子集S。,目标基;的剩d同时因V和与V位于同一个染色体上的并且和V的位置最近的99个基因组成了候选基因C和集合Cd。在实验中,我们把算法NDR其他H种算法相比较RWR、VAV圧N和PR一INCE。RWR就是前面提到的自重后随机游走算法。VAVIEN也是个基于RWR的预测致病基因算法,这个算法有H种不同的方法,VAVIENATS、VAVlENrSA和_j,VAV,VAVIENrSR。从VAVIEN算法中得知IENTSA是这兰种方法中效果最好的j_因此我们选择VAV旧NTSA算法作为比较的对象。VAV圧NTSA算法根据网络的__17 硕击学位论文MASTERSTHESIS拓扑结构相似性和种子基因的平均分布来预测致病基因。PRINCE算法与RWR算一R中法个重要的区别就是RW每个致病基因都有相同的概率跳转到初始节点,PRINCE把不同疾病的表现型相似性看成先验信息。在实验中,我们根据LOOCV测试对1巧1个疾病的2542个致病基因进斤预测,在每一轮预测中一,每个己知致病基因被看成要预测的目标基因。然后我们分别统计每种算法预测的己知致病基因在top1%、top5%、top10%、top50%和top100%3.1L内的数量。参见表,我们从义下兰个方面与其它方法比较。(1)预测的己知致病基因在tok%内的数量p表3.1预测的已知致病基因在topk%内的数量 ̄ ̄^Top1%Top5%Top10%Top50%Top100% ̄NDRC8^Tm13142^ ̄ ̄RWR前12%VAViEN^ImimPRINCE11%从表3.1可W看出,我们的方法(NDRC)与艮WR、VAV圧N和PRINCE相比预测效果更优越。NDRC成功地从2542个已知致病基因中预测到了849个(33.40%)一排名第(Topi%)的基因,然而RWR、VAVDEN和PRINCE从2542个己知致病基因中仅仅预测了762个(29.97%)、749个(29.46%)和778个(30.61%)排名一PRINCENDRCPRINCE第的基因。虽然算法的整体效果没有好,但是算法在排名top5%内的预测数量取得了良好的效果。考察预测已知致病基因在排名top10%、top50%内的数量,DNRC的效果明显好于其它兰种算法。特别的,NDRC算法成功的从2452个己知致病基因中预测到了2023个(79.58%)排名top100%的基因,而其它S种算法仅仅预测了1996个(7852%)。..(2)Rankfirstuniuelqy一kfiun另外个评估算法性能的指标就是考虑这个算法的ranrstiuel。qy能力R一一ankfirstuniquely(排它性排序)表示个候选基因u在top1%内只被某算法预测一到而没有彼其他算法预测到的能力。众所周知,预测排名第的候选基因可能与已知致病基因的关联程度最高,因此最有可能是某种潜在的致病基因。从图3.4可W看出,在2542个己知致病基因中,有691个基因同时被算法NDRC、RW艮、VAVIEN一和PRINCE预测排名为第。在送四种致病基因预测算法中,RWR算法的预测效果最差。和RWR算法相比,有97个(3.82%)已知致病基因被NDRC预测排名第一97RW民算法一NDRC,而这个己知致病基因被预测的结果并不是排名第。和一,有3,10算法相比10个(化巧%)己知致病基因被RWR预测排名第而这个已18 硕壬学位论文了E民’?MASSTHESISVAVIENPRINCE-f^一■一、一、、、'、、NDRC、RWR1〇\'',麵、、'、,、、-,、羞/、\,'1''\6'\14八,,\、、//、/;,'/、'、/、'1、'、/>\55V22/\22,'、.、r、/I\,、、/,/、\、、'、/f,、、'、'V691\>/、、\6/、X、0\/'、‘45、11\,>、;/\:、//、、一。斗J一、/Ii、、15、\/X、'、、/'、\'、*、?'一—直:占i.图3.4NDRC和其它算法的排它性排序比较NDRC一121476%)知致病基因被算法预测的结果并不是排名第。同样的,有个(.一VAV己知致病基因被NDRC算法预测排名第,但是IEN没有预测到,有21个一(0.826%)已知致病基因被VAVIEN预测排名第,而这21个已知致病基因被一%NDRC算法预测的结果并不是排名第。有85个(3.34)已知致病基因被NDRC一,但是PRINCE没有预测到40551%)己算法预测排名第,有1个(.知致病基因一被PR,INCE预测排名第而这14个己知致病基因被NDRC算法预测的结果并不是排名第一。(3)候选基因的度对算法的影响19 硕壬学位?论义'MASTKRSTHl;SIS30!III1II-—-——— ̄ANDRCe?iRWRVAVIENPRINc]afIII1ijIi^1^7^^3-6465--巧62巧03^^9128"91Dereeoftareteneggg图3.5候选基因的度对算法的影响我们在3.1小节中提到,大多数现存方法往往更偏向于网络中度比较大的节点,而对于网络中度比较小的节点来说,效果不是很理想。因此我们系统地分析了NDRC=和其它种算法对度比较小的基因的预测情况。从图3.5可W看出,NDRC算法受到节点的度的影响最小。特别的,RWR、VAV旧N和PRINCE算法都没有预测到网络中的孤立节点(度为0的节点),然而NDRC预测的32个孤立节点的平均排名为7.75。3.3.3实例分祈NDRC算法并没有从PN网络中刪除32个孤立基因节点而是把它们当作潜在一。ACADM基因就是PPI中的的候选致病基因例如,个孤立节点(和网络中其他)1P31ACADM节点没有任何相互作用,ACADM基因位于染色体的短()臂号位置,7911酶的不足可能引起中链脂肪酸不能降解,从而导致病人出现缺乏能量或低血糖的症状。我们的算法N抓C成功地预测到了ACADM基因,预测排名为第8。HBG20一2^1蛋白编码基因,,基因是个血红蛋白亚基,该基因与很多疾病相关例如苍白病twi新生儿短暂性症状和硫化血红蛋白血症。一一为了更进步地证明我们的算法能有效的预测致病基因,我们特意研究了种简单疾病Meckelsyndrome1(麦克尔综合征1)和两种复杂疾病;ProteinCdeficiency(蛋白C缺乏症)和Peroxisomebiog州esis出sorderlA(过氧化物酶体生物合成障20 硕-Jr学位论文'MASTERSTHESrS碍lA)。从表3.2可W看出,我们的算法成功地预测到了单致病基因和复杂致病基因。表32NDRC算法预测三种疾病的已知致病基因排名DiseaseMeSHGeneSymbolGeneLociRankMeckelsyndrome1MKSl17q221Protel-linCPROC2q3q46def-iciencPCIll34l353yq.q.PEXIOl36322p.PEX132pl6.1iPEX14l36222p.PeroxmeisoPEX2622ll211q.bidideiogenesssorr6PEX512pl3.311…,,?,、1AZellweer(g)PEX19l2321q.PEX362422q.PEXl72121q.(1)Meckelsyndrome1(麦克尔综合征1)麦克尔综合征1是由体内单个基因突变引起的1。麦克尔综合征的症状主要表一些症状基因MKS1是麦克尔综合征1的编码基因现为肾囊肿和其他,基因8311MKS1的突变可能导致麦克尔综合征!。基因MKS也与其他疾病相关,例如己m[一3]1己知致病基因MKS1比二氏综合征1。由于麦克尔综合征只有个,因此我们用和疾病麦克尔综合征1表型相似的疾病致病基因来预测基因MKS1。在本实验中,MKS一我们成功的预测到了1基因,预测排名为第名。(2)ProteinC化ficiency(蛋白C缺乏症)ProteinCdeficiency(蛋白C缺乏症)是由于人体内缺乏蛋白质C(THPH3)引起的,,蛋白C缺乏症患者可能导致体内的血块发生异常其症状轻微或严重,甚至威胁到患者的生命。大多数蛋白C缺乏症患者体内的血块可能永远不会发生异常,,,但是某些其它因素,如手术,年龄増加或怀孕都可能加快病症的发展。另外遗一传因素也可能会使患者有异常血液凝块的风险,500。蛋白C缺乏症不是个常见病个人当中大约只有一个人患该症状基因是制造蛋白质C的指导性有机体。蛋白C缺乏症分为两种不同的类型ItypeI和typell。TypeI是由与基因PROC的突变从而降低体内蛋白质C的含量引起的。体内PROC的突变也可能导致体内生产一Ctt种活性低的蛋白质的替代物,送种类型的症状属于ypell。TypeI和ypell都和基因PROC的突变有关。基因PC需要生物素和Atp两种催化剂把幾基化丙丽酸21 硕壬学位论文'MASTHRSTHI:SrSsty转化成草噓艺酸。从表格里面可W看出,我们的算法预测到的基因PROC和PC的排名分别为6和3。——L;SPI—JMCLEND0X17xl3UV39Hi/VJ占/[叫/[kCNRGft^iT))PxLlPlW;If"图3.6过氧化物酶体生物合成障碍1APN网络(3)化roxisomebioenesisdisorderlA(过氧化物酶体生物合成障碍glA)为了证明我们的算法不仅能预测单致病基因,也能很有效的预测复杂致病基因,并且能很好的预测度比较小的致病基因节点,我们深入研巧了复杂疾病Peroxisomebidideioenesssorr1A(过氧化物酶体生物合成障碍1A)的致病基因g。复杂疾病往往是由多种尚未发现的致病因素引起的,并且大多数复杂疾病和多种致病基因有关。过氧化物酶体生物合成障碍1A(PBD1A表型编号MIM:2H100),,从表格里面可^^看出,疾病?8〇1八有八个己知致病基因,口6父10、口6父13、口6乂14、口6乂26、口巨乂5、PEX19、PEX3和P防1,这八个己知致病基因分别位于染色体的I36.32、2l6.1、ppl3622、22ll.;21、12l331、l232、62427212。3.6p.qp.q.q.和9.位置从图中可1^看出,PEXl编码的蛋白质的度仅为2,为了预测基因PEXl,我们把基因PEX,l移除用疾病PBD1A剩下的7种致病基因和与疾病PBD1A表型相似的疾病的致病基因来PEX一1NDRC成PEX1预测基因。算法功的预测到了基因,预测排名为第,说明tW我们的算法可W很好的预测度比较小的致病基因。另外,相关研巧表明,同种疾一病的多个致病基因可能形成《个子网,与相同表现型相关的致病基因可能位于同一研究理论个生物模块,我们分析了疾病PBD1A基因的模块特征,分析。根据这结果表明疾病PBD1A的8个基因有明显的模块特征,我们用模块划分算法22 硕击学位论文MA'STERSTHESISstq--EC8FAG把这个致病基因划分成了2个不同的模块,基因FAGECPEXl和PEX26一0、9属于第个模块,基因PEX1、PEX13PEX14、PEX5、PEX1和PEX3属于另一36。外个模块.,更直观的结果见图所示3.4本章小结鉴于目前大多数致病基因预测算法不能很好的预测网络中的孤立节点并且预测结果更偏向于网络中度比较大的节点,而对于网络中度比较小的节点来说,效果不是很理想的问题一一致性原则的预测致病,我们提出了种基于热扩散模型和排名NDRC一基因算法。然后对1931个疾病的所有己知致病基因进巧留法交叉验证,实验结果表明我们的算法ND民C效果好于RWR、VAVIEN和PRINCE算法。用一MeckND民C算法分别预测了种简单疾病elsyndrome1和两种复杂疾病;ProteinCdeficiency和Peroxisomebiogen货isdisorder1A(PBD1A)的致病基因,最后分析了lA基因的模块特征PBDIA疾病过氧化物酶体生物合成障碍,分析结果表明疾病的8个致病基因有明显的模块時征。巧 ^住论文''MAS'iKRSTHISiS第四章基于热扩散巧多源异构数据融合的致病基因预測算法4.1引言。随着复杂网络技术的高速发展,科学家获得了越来越多的相互作用数据然而,由于高通量得到的生物数据还远远不够完善。首先,这些数据存在严重的假阳性和。假阴性问题,因此仅仅使用少量的生物数据还不能很好的预测致病基因其次,蛋白质相互作用数据是在某一条件范围内通过实验获取的,因此研巧人员仅仅识别了一所有蛋白质相互作用中的很小的部分,也就说目前我们使用的蛋白质网络还不是很完善,,也是,。另外蛋白质相互作用网络是动态的不稳定的就是说蛋白质相互一作用网络不仅包含了不同的时间点发生的动态相互作用,也包含了些不稳定的相互作用,研究人员经常使用不同类型的生物数据来提高可用信。为了解决这些问题w一ti息的整体质量,BioGrah。例如p等人建立了个包含不同生物医学实体和它们之间关系的异构网络来预测致病基因。Prioritize沪融合KEGG、BIND、HPRD、GO功能注释、基因表达和PPI网络等数据,根据不同候选基因么间的最短路径的长度对候选基因进行排名。作为蛋白质的结构和功能单元,蛋白质结构域也经常用在蛋ss白质网络的相关研充中Zhan人ti。g等利巧贝叶斯回归模型来预测复杂疾病和相关wiiPP结构域信息。Vfctor等人融合I网络、疾病表型相似性网络和蛋白质结构域网络来预测致病基因和与复杂疾病相关的蛋白质结果与模块。因此通过融合不同的生一物数据能进步提高致病基因预测的精度。4.2基于热扩散和多源异构数据融合的致病基因预測算法本章中我们提出了一种基于热扩散和多源异构数据融合的致病基因预测算法89dl]NDHD(NetworkDi航sionanHeterogeneousData)。NDHD方法基于ProphNet模型。NDHD,NDHD算法理论上可W融合任意数量的数据源信息模型的工作原理P9与Wu等人唯出的基于回归模型的致病基因预测方法CIPHER类似。CIPHER首先计算出候选基因和查询疾病的所有己知致病基因么间的接近中私性向量(ClosenessProfile),然后计算查询疾病和其他疾病么间的相似性向量(Similarity’)PC‘Profilti)le,最后利用皮尔逊相关系数(earsonsorreaon来计算接近中iM生向量和相似性向量么间的关联得分,并根据这个关联得分来预测致病基因NDHD。算法是利用热量在多源异构数据网络(PPI网络、蛋白质结构域网络和疾病衷型网路)中的传播来计算候选基因和查询疾病的所有己知致病基因之间的接近中如性向量,见图4.1所示。24 驻学位化文M’ASTERSTHESISPhenotypenetwork査询疾病怖其它疾病么间的巧似i性向置I衣/|\IIII\//、?Domainm化ract虹n说twork;I^子、??n\/U/m!/!M\M\\\\iI//\II\/IM\1//0I\\I/艇細M維病的巧有己gp知致病基因之接近中也性向Proteininteractionnetworic图4.1NDHD算法工作原理、NDHD模型的核屯是热量可由多条不同的路径从查询网络传播到目标网络,D表示查询网络(NetworkA),Dt表示目标网络(NetworkG),D表示从网络D到qq网络D么间所有网络的集合(NetworkA、NetworkB、NetworkC、NetworkD、tNetworks、NetworkF、NetworicG)。假设从网络D到网络Z)之间有m条不同的路fg戶=...…N径,那么我们令,,etworlcA到网络Network如1,,扔,扔n}例如图中从网络G么间3条(m二3)不(,)。有同的路径扔p,PPi3i表示从查询网络Og到目标网一….二么间的某二…二络D条路径,ED,D,D巧1,,P,巧小满足PPipu,fi柄yjigf单单二并且对于任意的yfc,有Pyp化。例如图4.2中Pi{NetworkA、NetworkB、N二etworicE、NetworkG,PNetworkA、NetworicD、NetworkF、NetworkG,}2{}=N口etworkA、NetworkC、NetworkF、NetworicG}。3{25 硕壬学位论文'S-?MASTERTHISrS^INetworkBljyNetworkGfNetworkANetworkdVP.[)(JNekFktworNetworC.|P1)图4.2热量的多路径传播NDHD算法的基本步骤如下:(1)热量首先在查询网络和目标网络内部传播(信息分别在NetworkA和NetworkG内部传播)。(2)热量分别由不同的路径从查询网络NetworkA传向目标网络NetworkG。一在传播的过程中,对于每条路径P,热量由网络P传播到其邻居网络,然i4PW+i>=21-后热量在网络P内部传播,l...2。热重;,,按照这种规律不断向目柄网络i+1j(y3NetworkG传播,直到热量在网络内部传播完为止。’(3)最后我们用PearsonsCorrelation来计算pi_和目标网络Df的相关系数,yリ由此来判断查询网络NetworkA和目标网络NetworkG的关联程度。43图.更加清晰的描述了热量从查询网络到目标网络的传播过程,该图包含H个不同的生物网络:PN网络(圆形网络)、蛋白质结构域网络(H角形网络)和疾病表型网络(矩形网络),。首先进行网络的初始化对要预测的疾病和该疾病的已知致病基因节点进行初始化;然后让热量分别在PPI网络和疾病表型网络中进行内。部传播当热量在疾病表型网络内部传播稳定后,会得到预测疾病表型与其它疾病表型之间的巧似性向量,热。当热量在PN网络内部传播完后量接着从PN网络传播到蛋白质结构域网络,然后热量在蛋白质结构域网络内部传播,当热量在蛋白质一结构域网络内部传播稳定后,会得到个得分向量,该向量间接表示了候选致病基P、因与PI网络其他节点之间的接近中屯性向量,然后利用皮尔逊相关系数来计算这两个向量的相关性,就可W得到预测疾病和候选致病基因的关联性得分。最后对得分进行排序并预测致病基因。26 硕壬学位论文'-S.MASTERTHISISV-^P>y麵內行行,口么iliAaVV//!AAAI&网络初始化网络内部热扩散网络之间热扩散计算节点相关性图4.3热量在不同网络上的传播4.2.1网络内部热扩散ProphNet模型用基于重启的随机游走算法(RWR)来进行当前网络内部的信息一传播,信息从源节点开始传播,经过系列的随机游走过程会得到源节点跟当前网络其它节点的相关性得分向量。其算法的核也公式如下:X=a-A-l-X+ax4.1i+ii()〇()其中a为节点在游走过程中发生随机挑转的概率,为当前网络的邻接矩阵,X。,RWR表示先验知识。在第H章的分析中我们得出在预测基因的过程中,算法能_’很好的预测度比较大的候选基因节点,对于度比较小的节点,效果往往不是很理想。而NDRC算法不仅能很好的预测度比较大的致病基因节点,对度较小的致病基因节点来说,预测效果也不错。因此我们采用NDRC算法来模拟热量在网络内部的传播。RUR<■AwDRC()wdrc把)的P"、_f?-*mnfcdWL.句anr〇n"rce如wOtherwise)ORwDflC(u),RkwO)分别为每个候选基因分别用NDRC和RW算法计算的在网络内部热扩散稳定后的得分向量。^^。^。。。。。^。。?〇)为候选基因1;的最终得分向量。4.2.2网络之间热扩散当热量在网络内部传播完后,热量开始由多条路径从当前网络传播到其邻居网络,我们假设某个节点U接收的热量小〇)等于其邻居网络中所有邻居节点传递的热量之和,如公式4.3所示;eiuengiy)■uijiiwv4.3^Zj()^)()0其中U表示节点U的邻居网络的邻居节点,l|;(U)表示节点U当前的热量,W(l/,P)表示节点U和U之间的权重,nei巧的表示节点U邻居网络中所有邻居节点的集合。27 硕击学位论文MASTERSTHESIS4.2.3相关性计》PP一当热量在I网络W及其邻居网络(蛋白质结构域网络)传播完后,会得到个向量,该向量间接表示了候选基因与PPI网络其他节点之间的接近中也性向量,同理,,当热量在疾病表型网络内部传播完后会得到预测疾病和疾病表型网络中其他节点之间的相似性向量,我们可W用皮尔逊相关系、数来计算送两个向量的相关性,就可W得到候选基因和预测疾病的关联性得分,如公式:S=COTT巧f4.4)()其中¥表示候选基因与PPI网络其他节点么间的接近中也性向量,f表示预测疾病和疾病表型网络中其他节点之间的相似性向量,S表示两个向量的关联性得分,最后我们对所有候选基因的关联得分进斤排序,排名小的候选基因被预测为真正致病基因的概率更大。4.3实验及结果分析4.3.1实验巧据集wHt我们从PRD坤获取到PPI网络,PPI网络包括8919个蛋白质和32331个相互作用。从OMIM数据库中获取了5080个疾病表型数据,疾病表型之间的相似性数据由vanDriel等通过文本挖掘技术计算得到。我们也从OMIM数据库中获取了-13%个疾病表型基因相互作用数据。PU92DOM[实验用到的蛋白质结构域数据从数据库INE和InterDom媒取,蛋白wfi质结构域数据包括5490个蛋白质结构域和48778个相互作用。我们从pFam数据tW库获取到了蛋白质结构域与基因之间的相互作用数据,从昨am和UniProt数据库获取到了蛮白质结构域与疾病表型么间的相互作用数据。4.3.2篇法评价--LOOCV(-Ieaveoneoutcrossvalidation)测试我们用来验证我们方法的有效性,一在每轮测试中,我们把疾病巧的某个己知致病基因V看成目标基因并移除,把疾。病0。的剩下己知致病基因和其他与疾病如相关的基因当作种子集同时,目标基PP—因和I网络中其它所有基因组成了候选基因集合C(共8989个基因)d。在预测致病基因时,预测的结果可能会出现假阳性和假阴性问题,因此可用ROC曲线来验证算法的有效性。TPR(真阳性率)为所有阳性致病基因中包含的真正的阳性致病基因的比例,FPR(假阳性率)为所有阴性致病基因中包含的阳性致病基因的比例,即:TPTPR=4巧下(巧 巧壬学位论文MASTERSTMESISFPFPR=-^(4句N其中TP表示真阳性致病基因的个数,P表示己知阳性致病基因的个数,FP表示假阳性致病基因的个数,N表示己知阴性致病基因的个数。在预测致病基因时,一,。NDHD给定阔值,表示预测基因的排名在阐值么前时认为预测的结果是准确的算法与ProphNet算法的民OC曲线比较如图4.4所示,从图4.4可看出,在校验已--知致病基因eneDiseaseL00)和预测新GeneDiseasenew(G的致病基因(associations)方面,NDHD算法的准确率均略高于ProphNet算法。—-…….—-"?一^-r>>^^一1r;II■,1,|r!]一一一-_一一°—Y。'6賣--10.5/I/-0.4(0--.3-*-r*02_?_Gene-DseaseLNDHD?iOO[]|----Gene-DiseaseLOOProphNet【]■ene-DGiseasenewassociationsNDHD—01_【]Gene ̄DiseasenewassociationsProhNet【]p—00102030.40.50.60.70.86.91-1Secifitpy图4.4NDHD算法与ProphNet算法的ROC曲线比较我们也从W下两个方面与算法ProphNet比较。-(1)验证己知致病基因(GeneDiseaseLOO)4-防seaseLOO)表.1验证己知致病基因(Gene ̄ ̄ ̄^Top1%Top5%Top10%Top50%Top100%INDHD^^ProhNet^^850p1126为了验证我们算法的有效性,我们首先预测了个疾病的已知致病基因。LOOCV一11%,在实验中,我们根据测试对个疾病的己知致病基因进行预测在每一轮预测中,每个疾病的已知致病基因被看成要预测的目标基因。从表4.1可W看NDHDPNt出,在验证己知致病基因方面,我们的方法()与rohe相比更优越p。29 硕击学位论文MA'STERSTHESIS64一NDHD成功地从1126个疾病中预测到了1个(14.56%)排名第(Topi%)的已知致病基因,5%个(47.60%)排名前五(Top5%)的已知致病基因,671个(59.59%)排名前十(ToplO%)的己知致病基因.1,。从表4中可W看出在验证已知致病基因方面,我们的算法NDHD效果明显好于ProphNet算法。2-ase()预测新致病基因(GeneDisenewassociations)42ene-Di新致病基因(Gseasenewation表.预测associs) ̄ ̄ ̄ ̄ ̄ ̄Top1%To5%Top10%Top50%To100%pp ̄NDHD30%nsProphNet2379巧177为了证明我们的算法不仅能验证己知致病基因,还能有效的预测新的致病基因,我们预测了387个在数据库中与疾病无关的致病基因。预测结果见表4.2所示,从表4.2中可W看出,我们的算法NDHD在预测新的致病基因方面,效果略优于ProphNet算法。4.3.3实例分祝一为了更进步地证明我们算法的有效性,我们选择了2种疾病LungCancer和BreastCancer作为案例研巧。4*表.3肺癌、孔腺癌致病基因预测(星号表示已知致病基因)LungCan说rMIM;211980()GeneRank.GeneRankGeneRank ̄' ̄ ̄***EGFRiBRAF2TP531OIP55ERBB238CASP8384 ̄ ̄RASSFlPARK2mMAP3K81〇16IRFl1501PPP2R1BBreastCaocerMEM:114480()GeneRankGeneRankGeneRank***RAD51iBRCA22BRCAl3**NBN4PIK3CA5RAD54L6 ̄ ̄RADS1API7MSH28FANCD291^1iOTP53nATM15ELAC217CHEK2帝BRIPll6BARDl^ESRI116AKTl158XRCC325\?2^CASP8^TSGlOlmCDHlKRASIHOHMMR^PPMID3^NQ0244^30 巧+学位论文MAST-lRSTHliSlSRJBICCI4784I(1)Lungancer(肺癌)C肺癌指的是邮部组织内细胞生长失去控制导致DNA基因的损伤而造成的癌症。一肺癌是世界上常见的恶性肿瘤么,肺癌的病因至今尚不完全明确,相关研究表明,肺癌与大量吸烟有很大的关系。在本实验的PPI网络中,与肺癌相关的致病菌基因有11个:EGFR、BRAF、TP53、0IP5、ERBB2、CASP8、艮ASSF1、PARK2、MAP3K8、IRF1和PPP2R1B。从表4.3中可^^1看出,我们成功的预测到了肺癌的3个己知致病基因EGFR(1化)、BRAF(2化)和TPW(3比)。基因EGFR的突变与肺癌的发生有很密切的关系。肿瘤细胞的增殖、细胞调亡的抑制与EGFR蛋白质功能的缺失有P51一关。EGF民基因检测可能对判断肺癌的程度,扩散性等有定的帮助。作为信号af-MEK-ERK转导通路r,BRAF基因与肿瘤细胞的增值中的重要組成成员、分化和调亡有关,BRAF。在正常情况下蛋白质只在传递信号的时候保持活性状态,但是一直保持活性的状态当发生BRAF突变时,BRAF则,从而可能会导致肺癌的发96一生[1。相关研究表明结直肠癌也与基因BRAF的突变有关。TP53基因是个很常见的肿瘤抑制基因,50%W上的恶性肿瘤与基因TP53的突变有关,肺癌和乳腺癌均与基因TP53有关。预测排名第5的基因01P5是NDHD算法预测的与肺癌相关新的致病基因。相关研究人员对使用3%个存档的非小细胞肺癌标本进行免疫组织化染色,实验结果表明OIP5表达与肺癌患者的预后较差有很大的关系与肺癌■相关的其他致病基因及其对应预测排名见表4.3。(2)BreastCancer(乳腺癌)乳腺癌是危害女性健康的最常见恶性脚瘤。全世界乳腺癌的发病率从上世纪末开始一直呈现不断上升的趋势,预防与治疗乳腺癌己经成为当今社会的重大公共问题,,但是乳腺癌的致病机理还不是很清楚因此对乳腺癌的致病基因进行研究就显得非常重要。与乳腺癌相关的致病基因有28个,RAD51、BRCA2、BRCA1、NBN、PIK3CA、RAD54L、RAD51AP1、MSH2、FANCD2、民B1、TP53、ATM、ELAC2、CH巨K2、BR、、、IP1BARD1ESR1、AKT1、XRCC3PHB、CASP8、TSG101、CDH1、KRAS、HMMR、PPM1D、NQ02民B1CC1。RAD5、和其中基因1、B艮CA2BRCA1、NBN和PIK3CA是乳腺癌的已知致病基因,其它的23个基因是NDHD算法预测的4.3新的乳腺癌致病基因,。从表可W看出预测排名前n的基因都是与乳腺癌相关的致病基因。BRCA2基因(2化)是乳腺癌的己知致病基因,它是对人类恶性肿瘤。有抑制作用的基因BRCA2在调节细胞生长与分化等过程中有着很重要的作用。例如BRCA2基因的突变会导致细胞出现非控制性的增殖,从而导致恶性肿瘤的发31 硕去学位论文'MASTF-.RSTHlSISmtum'气吟"-疆今;;;'--?.:yMMB/.Md>?'■'.:,'a;*?Mi?u?mM-i??知iw啤;wutf弦?琴w.、w,,?‘w;?、:*W.、'**兵**MMV'M.护;\w補.、*??;;^?*???、马‘:堯…二:,^^^ ̄.":'-^ ̄?T左租?心1哉端叩,.雜?婦麵.、**.酬-,‘-,W';、?魏W、/‘,狐.^詢W峡神為分否峡'?"'"-户WW謎W?化、'Uw"./J、品;>糾_?二^SjT心7W护六w.’"W‘':—C.?-W.',..'.,》^**.’、‘'如?满:W㈱*-^;>孩'…賺、—…^…. ̄‘/ ̄'…r*-'*職 ̄…?''v,i…''—\Vw、/,…--''?--"^.W…一—巧?公C女;…苗…^折…,、?.供W麵。-^靡?皆■,w,■,心J巳批…M'…、…Wm心^。/h心加:州如'' ̄?-?心.械..?》?!:—*?'細>^换*?.?雌化《?^.巧幽W一?*一*麵??m图4.5乳腺癌PPI网络98一99]【][BRCA生。排名第H的基因1是世界上第个被发现的家属性乳腺癌抑制基因。twwBRCA1基因的突变率在乳腺癌高发家族中为45%。除乳腺癌之外,BRCA1基因1^’102’103’1^’105]的突变也与前列腺癌、卵巢癌和膜腺癌有关。基因£1^入〔2(9化)是算法NDHD预测的新的乳腺癌致病基因ELA巧基因是一。科学家发现的第个导致UW家族遗传性前列腺癌的易感基因,最近研巧表明乳腺癌也与ELAC2基因的突变101^有关。与乳腺癌相关的其他致病基因及其对应预测排名见表4.3。乳腺癌PN网络见图4.5,黄色节点表示乳腺癌致病基因节点。4.4本章小结,针对目前高通量数据的不完善并且这些数据存在严重的假阳性和假阴性问题,32 硕壬学位论文MA'?STERSTHESfS一NDHD提出了种基于热扩散和多源异构数据融合的致病基因预测算法?NDHD算法趣合蛋白质相互作用网络、疾病表型相似性网络和蛋白质结构域网络来进行致病基因预测。实验结果表明NDHD算法在验证已知致病基因和预测新致病基因方面效果好于ProphNet算法。33 硕壬学位论文MA'STERSTHESfS第五章总结与展望5.1总结一人类健康面临的个基本挑战就是如何有效地识别并预测致病基因,人类基因一组计划成功地绘制了人类基因組精确图谱,不仅让我们更进步了解疾病的发生机理,也加深了我们对致病基因的认识。致病基因预测对我们研制疾病药物和预防疾病的发生有着深刻的意义。针对当前大部分致病疾病预测方法把网络中的孤立节点当成网络噪音,并且预测结果往往更偏向于网络中度比较大的节点,而对于网络中度比较小的节点来说效一一果不是很理想的问题,我们提出了种基于热扩散模型和排名致性原则的预测致病基因算法NDRC。实验结果表明在预测度比较小的节点和孤立节点方面,ND民C算法的性能好于另外H种致病基因预测方法RWR、VAVIEN和PRINCE。最后,我们分析了一种复杂疾病,发现复杂疾病的致病基因有明显的模块特征。由于高通量得到的生物数据还不够完善,并且这些数据存在严重的假阳性和假一阴性问题,我们提出了种基于热扩散和多源异构数据融合的致病基因预测算法NDHD。NDHD算法融合蛋白质相互作用网络、疾病表型相似性网络和蛋白质结构域网络S种异构生物数据来进行致病基因预测。实验结果表明NDHD算法在验证己知致病基因和预测新致病基因方面效果好于ProphNet算法。一5.2进步研究L作一本文在研巧过程中还有些没有解决的问题,如果送些问题能够找到合理的解决方案可能对致病基因预测性能的优化有很大的帮助。(1处理网络中的孤立节点)NDRC算法虽然成功地预测到了网络中的孤立节点,但是其处理孤立节点的方法过于简单,即假设孤立节点能够相同的概率向网络中其它节点传播信息,我们可レ义用更好的方法来处理网络中的孤立节点。口)融合更多的生物异构信息算法NDHD融合了蛋白质相互作用网络、疾病表型相似性网络和蛋白质结构域网络H种异构生物数据来预测致病基因。我们将来可W融合更多的生物数据,比如基因本体、代谢路径等信息。34 硕击学位论文M'’’?ASlERinHESIS参考文献m-Kitano吐Computationalsystebiolo.Nature,2002420691:206210.[Ugy,(巧WiltthlkinsMS加ch斑JCGooeAAeal.Proresswiroteomeroects:wh氏,y巧,gppjyallproteinsexpressedby注genomeshouldbeidentifiedandhowfc)doit.BiotechnolGeneEnRev19-tg199613:50.,,H'GravesPRasteadTA.Molecularbiologistsuidet;oroteomics.MicrobiolMolP]jygpB-iolRev200266l:3963.,,()ttMXrioIetaltifti-4EisenberDMsuxxjeEenasenunconintheostenomic.Pro[]g,,,pgear823-826.Nature20004056788:,,()Ade打HPa-LoreianMarsSluG.Proteinrotei打i打teractionsastaretforantiviral口]g,p,gchemoera-th.Revews化Medicalroo20022392於.pyiVilgy,,1(4)。[巧WangJ.Proteinrecognitionbycellsurfacereceptors:Physiologicalreceptorsversus-vimsinteractions.TrendsinBiochemicalScience,200227:1221%.,巧)XuJL-iYtlAnadalitllti7SunJea.lsisancaio打ofarescaeroteinroen,[],,yppgpp-ttonsCeseScie打ceBulletin20055(19:20552060ineraci.hin.,,^)Gauh-LeraincUcJti巧JMProteinroteininteractionmasAltgWo-:eadowards[巧巧j,pp-cellularfiinctions.TrendsGenets2001,176:346352.()9FedsSSo打Oo-.Anoveleneticsstem化detectrteinroteininteractions.il[],ggyppNt-aure19893406230:2452%.,,()t-10UetzPGiotL/GagneGeal.Acomrehensiveanalsisofroteinrotem[],,y,pypp-interactionsinSaccharomces说rCvisiae.Nature2000403770:623627.y,,巧)[11]RigautG,ShevchenkoA,RutzB,etahAgenericproteinpurificationmethodforroteincomlexcharacterizationandroteomeexloration.NatureBiotechnolo,ppppgy-19991710:10301032.,()2GavhiACKrauseRGrandi巧巧al.Functionaloranizatio打of化eyeastproteome],jgt-bysstematicanalsisofroeincomlexes.Nature2002415868:141147.yy,pp,巧)1GavinACAloPGrandiPetal.Proteomesurverevealsmodularitoftheea巧[引,y,,yyyce-machiner.Nature4407084:631636.lly,2006,()tlSiidtifii14HoYGmhlerAHei化utAea.stematcenficationorotencomlexesn,[],,ypp‘mass-saccharomcescerevisiaebysectrometr.Nature2002,4156868:180183.ypy,()15ZhuHBilinM,anhamR,etal.Globalanalsisofroteinactivitiesusin[],gBgypgme-roteochips.Science20012935537:21012105.p,,()liimenta16TonAHDreesBNardelGetal.Acombinedexerlandcomutational[g,,],ppstrategy化defineproteininteractionnetworksforpetiderecognitionmodules.35 /i硕去学位论文j|^M'ASTERSTHESIS2%-Science20025巧3:321324.,,()。7XenariosI,SahvinskikDu抑XJ?etal.DIP,出eDatabaseofInteractingProteins:a]|researchtoolforstudyingcellularnetworksofroteininteractions.NucleicAcidspReh200230-searc:303305,,1ht://www.hid.o[巧pp巧19ht://www/proteome.com/databas從[]p0BreitkreutzBJ,StaricCTrsM.TheGRID:化eGeneralR的osUoror口],yepyfInteractionDatabases.GenomeBiolo20034:R23.gy,,9)MewesHWAmidCArnold民,etal.MIPS:analsisandaimotationofroteinsPU,,ypNuc-fromwholegenonies.leicAcidsResearch200432:D41D44.,,[22]WagnerA.Howtheglobalstriictureofproteininteractionnetworksevolves.PsooascceT2270514457-466roceedin.Bilgicliens.heRoalSociet.0031:.gyy,()Barabas-iAl^Aert民?Emerenceofscaininrannetwor?i199,lbglgdomksScence,9口引…,286-:509512.24ht://blo.sina.com.cn/s/Wo141238eab0102vcxi.html-[]pgg_Mason-JeongHS.P良arabasiAetal.Lethalitandcentralitinroteinnetworks.口句,,kyypNa-ture.20014。於3:4142.,巧)[2巧LiS,ArmstrongC.M,BerlinN,etal.Amapofthei打teractionnetworkoftiie-metazoan303657:540543..Science.2004,口)口7]WagnerA.Theyeastproteininteractionnetworkevolvesrapi姐yandcontainsfewredundantdulicategenes.MolecularBioloandEvolution.2001pgy,187283-292:11.()2AlbertRBarabasiAL.Statisticalmechanicsofcomlexnetworks.Reviewsof[巧j,pscs74-ModemPh:47972002.yi,,[29]巧gmanM,C说沈iG.A,Globalorganizati畑of化eWordnet1化icon.Proc说出打gsof-出eNationalAcademofSciences99:1742174002.y,六2Mifl0Newman.E.NetworkCO打structonandmdamentalresults.Proceedinsoftile口,]g-200NationalAcademofSciences98:4044091.,y,31]李敏,陈建二,王建新.基于复杂网络理论的蛋白质网络巧扑分析.计算机[工程与应用20084420-22:.,,巧)[32]刘涛,陈忠,陈晓荣.复杂网络理论及其应用研究概述.系统工程,2005,236-:17.()ivesAGalitkiT.Modularoranizatifcellularnetwork.Pro。Nat.cad.Ws畑oslA口引R,g2003-Sci.USA100:11281133.,,uchtS,RavaszEBarabasiAL.ThearchitectuKofbioloicalnetworks.In:口句Wy,gDei洗oeckTS,Kre油JY,KeplerTB:eds.ComplexSystemsinBiomedicine.New36 巧壬学位连义M''ASTKRSTflLSiSk-YorlAilihin130.:KuwercademcPubs2003g,,'35Br.aabasiAOltvaiZNetworkbilo:Understandint;hecellfiinti][],ogygscona-oranization.Nature民evGenetics20045101113.:g,,36LuoF,Yan呂Y,ChenCF,etahModularorganizationofproteininteractionnetworks.[]-Bioinformatics2007232:207214.,,()37PGSunL-enaninGaoShanHan.PredictionofHumanDisease民elatedGene[]gg,,CustersC-lusterinAnass.IntJBolSci.201171:6173.lbyglyii;()Mi.itttiilii38].GrvanM.EJ.Newman.Communsrucurensocaandbolocal,[yg-net.Proceedinsof化eNationalAcademofSciencevol99.1works.7827826gy,,PP,June1120022002.,39SMVanDonen.Grahclusterinbflowsimulation.2000.[]..gpgy-40AJEnrihtS.VanDonCAOi.Afiitlfbrlarl..en..uzounsnecenaorUhmescae[]g,g,ggtectonofote-deinfamilsNacidsresearch,l30157515842002iprie.ucleicvo..,,,ppd.thffiimo41G.D.BaerCW.Houe.AnaiUomatedmeodorndnlecularcomlexes[],ggpinlareroteiniMeractionnetworks.BMCbiomformaticsvol.4.22003.gp,,P,化-42Ai.D.KinN.PrzI.Jurisica.Proncomlexredictionviacostbasedg,,pp[]叫-clusterin.Bioinformaticsvol2030330202004...1g,,pp,[43]PeltonenL,PerolaM,NaukkarinenJ,etal.LessonsfromstudyingmonogenicdiseasefbrcommondiseaseU.HumanMolecularGenetics^006,ol.15Issue]Vs.uppl1民67,—p.4uJli.iaru.SsbmsBioloandComexDseaseCProceedinsof化e26th[叫Wygyp[]gChineseControlConference.China:Zhanaie,Hunan2007.卽j,heir.idedb45Tse打AShafeLGDsorrscausechromosomeabnormalitiesJ.The,[]y[]alicationofclinicalenetics20103:159.ppg,,46DiMauroSDavidzonG.MitochondrialDNAanddseaseJ.Annalsmediiiofcne,,[][]-2005373.:222232,()47Thanh-PhuonNuen.DetectinDiseaseGenesBasedonProteinInteraction[]ggygNetworks.TechnicalReportCoSBi09/200义*4Perez-lratxe化CBorkFArMA.Associationofenes化tilliit,ndadeenecanhered[刮,ggy-d.i.iseasesusindatamininNatureGenetcs200231:316319.gg,49KannMG.Advancesintranslationbioinformatics:comutationalaroachesfbr[]ppp仿rm-thehuntinofdiseaseenesJ.Brbiiiefininonatics201011196110.gg,,:[]g()50KohlerS,BauerS,HornD.Walkin化einteractomeforrioritizationofcandidate[]呂pd-iseaseenes.AmJHumGenet2008824;94958.g,,().基于协同过滤的疾病基因预测方法.D205海珠.西安电子科技大学.14年.[U邵[]52vanD-rielMABruemanJVriendGetal.A化xtmininanalsisofl;hehuman[],gg,,gy37 硕去学位论文MA'STERSTHESIS-phenome.EurJHumGenet.2006P.53542.,P-iDlti;3KwangUGohMichaelE.CusckavidValeeal.Thehumandseasenetwork.口],^,PNA义—2007104:86858690.PubMed:17502601;[][54]AdieEA,AdamsFt民5EvansKL,巧al.SpeedingdiseasegenediscoverybyittJBMti2006seuencebasedcanddaeriorizaion.Cbioinformacs51:55.qp[],,()口引SchlickerA,LengaueT,AlbrechtM.Improvingdi化犯0genepriorizationusingthesemanticsimUarityofGeneOntologyterms[J].Bioinformatics,2010,26-15617.:i巧6(巧口巧AertsS,LambrechtsD,MaityS,etakGeneprioritizationthroughgenomicdata-fusion.NatBiotechnol2006Ma245:53744.,,y;()"7JesseGilisPaulPavlidishetltl.Timacofmuifunctionalenesonu化b口],pggy"associationanalsisPLOne2011Feb1862l7258..oS:ey,,()5KoherauerHornD.alkin化einteractomeorrioritizationolS,目SWffcandidate[巧,gp-diseaseenes.AmJHumGenet2008824:94958.g,,()WuM-Xuebin民uiJia打换ichaelQZhanget化Networkbasedlobalinferenceof口种g,,ghumandiseaseenes.MolSstBiol.20084:189.gy;0OronVaimnOdedMaggerEtan民uinetahAssociatingGenesandProtein巧],y,,ppComlexeswithDiseasevi过NetworkProaation.PLOSComutatio打alBioo.ppgplgy20-106ll:9.,()[6"Chen乂WangW,Zhou义etal.InsUicogeneprioritizationbyintegratingmultipledatasourcesJ.化OSone,2011,6(6):e21137.[][6巧AdieEA,AdamsRR^EvansKL,etal.Suspects:enablingfastandefective-oritzatonofositionalcandidates.Bioinform她cs2006226:773774.priiip,,()[63]A.M.L.Liekens,J.DeKnijfJ,W.Daelemans,etal.BioGraph:UnsupervisedBiomedicalKnowledgeDiscoveryviaAutomatedHypothesisGeneration.GenomeBiology12:民57,2011.[64]Domin化Seelow,JanaMarieSchwarz,andMarkusSchuelke.—DGeneDistilleristillingCandidateGenesfromLinkageIntervals,PLoSONE.20083n3874.:e;()65SaraBaouzJasonYLiuRichardAGeoreetal.GentreidV2.0:awebserverforll,,[],gpcandidatediseaseenerediction.BMCBioinformatics201314:249gp,arc-6A.vanDrielJomBruemanGertVriendetal.Atextmininanalsisof化e[巧M,gg,,gy-humanenomeli.EuroeanJournaofHumanGenetcs14535542.2006PMID:p,忡,,64913445.-67ChenDKnoxCYounNetal?化lSearch:awebbasedtextmininstemforg,,g,yg巧[]*wee化asesextractlionsiseenesmutaioandinieathbtnhumanditnsdrusgp,,g,g38 硕壬学位絶文、?MASTE民STHESKW-itsNAcisRes2008Jul36imetabole.ucleicd.lebServerssue:W399405.doi:;()10J093/nar/gkn296.Epub2008May16.-T6ChenYriathiLPuchiKTdMinettAMizu.ar她IneraedDataWarehousefor,[巧,pgg,gCandidateGenePrioritisationandTaretDiscover.PLoSONE62011gy口),,el44doi:?1/oumal.one.0017844.78.10371jp[的]ChenJ,SardesEE,AronowBJ,etal.ToppGe打eSuiteforge打e巧!Stenrichmentanalysisandcandidategeneprioritization.NucleicAcidsResearch,2009,doi:10.1093/nar/gkp427.〇--vanDamSCraideMagalMes化GeneFriends:ahumanRNAsebasedene,|7]gqg-andtranscritcoexressiondatabase.NucleicAcidsRes.2015Jan2843.pp;Ya打Haixuan.Difiisio打rank:江possiblee打icillmforwebamming.ACMSIGIR517。g,p邓2007.43一38.,PPStumpfMP,ThomeT,deSilva^etal.E巧imatingthesizeof化ehumaninteraction.17。-ProcNatcadc20081:6,lASi05199巧64,,()73LuisA.NunesAmaral.Atruermeasureofourignorance.Proc.Natl,Acad,Sci[],2008.[74]DanielaNksch,JoanaPGonfalves,F化ianOjedOjetal.Candidategeneprioritizationby打etworkanalsisofdiferentialex巧ssionusinmachinelearninypggapproaches.BMCBioinformatics,2010.lvesmailAliYvesMoreau75JoanaP.Gon9aexandreP.Francsco.Interactoeneous:[],,gDiseaseGenePrioritizationUsingHeterogeneousNetworksandFullTopologyScores.PLoSONE,2012,7(11):e49634.76D.AldousandJ?巧11.Revers化leMarkovChainsandRandomWalksonGrahs,[]pmonorahinrearation.gppp77EBGRMtDADA-AwlllenSebekEwineal.:DereeareAorithmsfor,[],,gggt-BD-inePriorittiBDatMin2011419NeworkasedseaseGeizaon.ioa..,7ErtenSBebekGKoutUrkM.Vavien:analorithmforrioritizincandidate[巧,,ygpgdiseaseenesbasedontooloicalsimilaritofroteinsininteractionnetworks.Jgpgypu-ComptBiol.2011Nov18ll:156174.;()79Des化inAFFontaineMAndresenBS,etal.Anovelmutationof1:heACADMene[],,gC.1450Gassociatedw細化ecommonc.985A>Gmutationon化eo化erACADM()allelecausesmildMCADdeficienc:acasereort.OrhanetJRareDis.2010Octypp--5511111172-526:26.doi:0.86/750.;巧0]HiggsD民,VickersMA,WilkieAO,etal.Areviewofti[iemoleculargeneticsof化e--humanalphaglobinenecluster.Blood73(5):1081104.PM瓜2649166.g巧。Crowl巧MA,MollanTl^,AbdulmalikOYA,etal.Ahemoglobinvariantassociated39 硕壬学位论文MA'STERSTHESISihneonatalcsis ̄wtanoanda打emiaNEnM20112641837.gJed.Ma19:143.yly乃()doi:10.1056/NEJMoal013巧9.-AAhdabBClOdtctivetriadltfthelarmad泣Maassen.isinofmaformaionsocentra巧巧jnervousssemeMecke-Grubersndromeaytinthly.JNeuroptholExpNeuro-l.496:61020.()[83]Kyt拉laM,TallilaJ,SalonenR,etal.MKSl,enco出ngacomponentof化eflagellarapparatusbasalbodyproteome,ismutatedinMeckelsyndrome.NatGenet,2006,1-382:巧7.()4-eckeChihPinChen.MlSndrome:GeneticsPerinatalFindingsandDiferential巧]gy,,^Dd11016/S10284巧90860100-Xiagnosis.oi:0..()M-85NAGOLDENBERG.J.MANCOJOHNSONProteinCienc30OCT...defic.,y|;]2008-DOI101111/l3652516200801838:.....x.jM'm8LiinWanJianxina打dChe打Jianer.AFastAlomerateAlorithforMinin[句,g,ggggitIiNtworkstiFunctonalModulesinProeinnteractone,IEEEComuerScence2008p,,--l2730:37.()87FrankeLBakelHFokkensLetal.Reconstructionof过fimctionalhumanene[],,,gnetworkwithanaHcationforrioritizinsitionalcandidateenesJ.The^pppgpog[]Am-ericanJonmalofGenetcs200678:10111026Humani.,,巧)[8Zh抑gW,Che打乂SunF,etal.DomainRBF:aBaesianreressionaroach化化e巧ygppprioritizationofcandidatedomainsforcomplex化seases.BMCSystBiol2011,5:55.Y'9ictorMartinezCarlosCano,ArmandoBlanco.ProhNet:Aenericrioritization巧],pgpmethodthrouhroaationofinformation.BMCBioinformatics201415ulgppg,巧pp1:S5.)90htp://www.hprd.org/[]巧"RaghavachariB,TasneemA,PrzytyckaTM,JothiR:DOMINE:adatabaseofro-tenomaininteractions.NucleicAcsRes200836su1:D656D661pidid.,(ppl)[92NSKZhanTanSH,LinK:InterDom:adatabaseofutativeinteractin]g,gZ,pgproteindomainsforvalidatingpredictedproteininteractionsandcomplexes.NucleicAddRe2003-ss31:251254.,"M--9;3RDistrJS油usterBocklerBGrifithsJonesSHolchLassmannT巧nnli[],,乂,,y,MoxonSMarshallM,KhannaADurbinREddSRSonnhammerELLBateman,,,,,yA:Pfam:clanswebtoolsan过services.NucleicAcidsRes2006,34si,(叩p-1;D247D251.)[94]JainE,BairochA,DuvaudS,PhanI,RedasdiiN,SuzekBE,MartinMJ,McGarv巧PGasteierE:化frastructurefor化eH妃sciences:designandimplementationof1:he,gUniProtwebsite.BMCBioinf20091化136.,40 硕女学位據文TER'MASSTHESIS5J.GuillermoPaezPasiA.JanneJefreC.Leeetal.EGF民MutationsinLun,巧],y,gCancer:CorrelationwithClinicalResponse化GefitinibTher啤y.Science4June2004:-Vo.4no.5676.141.l30pp975009吴衔孙文勇?BRAF基因突变与结直肠癌的研究进展?实用医学杂志2011年[巧27卷5第第期.97KoinumaIAkiam泣HFuitaMetal.Characterizatio打ofanOainteractin[],y,j,pgprotein5involvedinlungandesophagealcarcinoenesis.Cancerscience2012g[j],,-1033:577586.()巧8]付欣鹤,王振华,李锋,etal.人类乳腺癌的分子遗传学研究进展.石河子大学学报(自然科学版),Vol.22No.5,Oct.2〇〇4.t-99HallJMLeeMKewmanBeal.Linkaeofearlonsetfamalbreast,N,ili[],gy-cancerte171cence19250491684:ochromosom2.Si9088:9.q,,()[100]熊呜.乳腺癌易感基因BRCAl的研究进展.生命科学.Vol.24,No.10.[101]邓文国,曾瑞萍,蒋讳莖,等.BRCAl基因在原发性卵巢癌组织中突变的研究.癌-1999185:514516553.症,,(),-[102CallebautIMomJP.FromBRCA1化RAP1:awidesreadBRCTmoduleclosel],pyassocaed--thDNreair.Slet1940:2530.itwiApFEB,97,(X1)[103]DanielDC.Highlight:BRCAlandBRCA2proteinsinbreastcancer.MicroscRes-Tech2002591:6883.,,()。04EkbladCMWilkinsonHR,SchmkowitJWetal.CharacterisationoftheBRCT],y,domainsofthebreastcancersusceptibilitygeneproductBRCAl.JMolBiol2002,,3203-;431442.()’105SinoriEBaniCPaaSetal.Asomaticmutationinthe5UTRofBRCAlg,g[],p,-geneinsporadicbreastcancercau化sdownmodulationoftranslationeficiency.-200-Oncoene12033:45964600.g,,()Tavan-106tigiSSimardJTenDH,etal.NatureG畑etics2001272:172180.[]乂,g,,()t-107宁萍eal.ELAC2对MCF7浸润转移和放射敏感,焦肠,朱巍,乳腺癌细胞[]性的影响.賴射研巧与箱射工艺学报.Vol.28,No.5.October2010.41 硕壬学位论文'#MASTERSTHESIS攻读硕±学位期间参加的科研项目与公开发表的学术论文攻读硕壬学位期间参加的科研项目:""1湖北省国际合作项目:微生物大数据挖掘及医学应用合作研巧[]2014-15(2014BHE0017)20.,"巧国家社会科学基金重大项目:互联网环境下的语言生活方式与建设和谐的网络"-语言生活研充(12&2D223),20132015."""[3]国家语委十二五科研规划重点项目:国家语言资源监测语料库建设及相关"-20-122013技术研究ZDI125.(化公开发表的学术论文:[1]MinghongFang,XiaohuaHu,TingtingHe,XianjunShen,JunminZhao,JieYuan.Priori-tizingDiseaseCausingGenesBasedonNetworkDifusionandRankConcordance.0-B田M214:242247.[2]MinghongFang,XiaohuaHu,YanWang,JunminZhao,XianjunShen,TingtingHe.NDRC-P:ADiseaseCausingGenesrioritizedMethodB泌edonNetworkDi航sion她dti2015RankConcordance.圧EETransacionsonNanoboscience..己录用()JunminZhaoTintinHeXiaohuaHuYanWanXianunShenMinhonFan口],gg,,g,j,ggg,JieYuan.ANovelDiseaseGenePredictionMethodBasedonPPINetwork.S旧M2014:31-1314.42 硕壬学位雜文MA'#STKRSTHESIS致谢经过几个月的努力,我的硕±论文终于写完了。我在华中师范大学的H年求学生涯即将结束,在这过去的H年里太多人给予了我真也的支持与帮助,让我收获良一个僧懂的少年慢慢地走向成熟多,让我从。一一首先,胡小华教授和何婷婷教授我要感谢硕±研究生期间的两位好导师。胡老师是数据挖掘、生物信息学领域的专家,他虽然远在美国,但他为人随和谦逊,不管因为什么事情他都能够耐私的回复并给我们提供有用的指导建议。胡老师每次从国外回来都会给我们做数据挖掘和生物信息学领域的前沿研巧报告,送些研巧报告能帮助我们快速的定位研究方向并了解相关研究领域最前沿的知识。我非常感谢胡老师在我的硕±生涯中对我的鼓励和教导。一位我需要特别感谢的导师就是何老师另。感谢何老师H年来对我学业上的指导和生活上的无私帮助。何老师思维活跃、治学态度严谨是我为人的楷模。在我遇到挫折时,何老师总能给我鼓励与安慰;在我迷茫无助时,何老师总能给我帮助和建议,;在我骄傲自满时何老师总能给我提醒和告诫。我还要感谢沈显君老师和蒋兴鹏老师、地坚持为我们开,感谢两位老师极有耐屯每周例会,感谢两位老师在生物信息学和工作生活方面给予我的无私帮助与支持。一直关也和支持我的同学我也要感谢。感谢艳姐、赵博、郭博、李鹏、尹浩传和周涛等师兄师姐在学术巧生活上的关也和帮助;感谢陈雅兰、赵艳丽等同届兄弟姐妹们在生活和学习上的照顾和鼓励;感谢袁杰、易阳等实验室师弟师妹们的活泼热情,为实验室增添了很多的欢乐。一我还要特别感谢我的家人,感谢我的女友,感谢他们直来对我的关也和关怀。43

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭