欢迎来到天天文库
浏览记录
ID:35181477
大小:3.08 MB
页数:53页
时间:2019-03-21
《基于生物语义数据的图模型构建与分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于生物语义数据的图模型构建与分析ConstructionandAnalysisofGraphModelBasedonBiologicalSemanticData学科专业:计算机科学与技术研究生:王爽指导教师:孙达志副教授天津大学计算机科学与技术学院二零一五年十一月摘要化学和生物领域公开数据的快速增长,为人们在药物研发领域对于大数据的挖掘提供了更多的机会。这些数据集无论在规模,还是复杂度方面都在不断增大,这使得对这些数据的表示和存储更加困难。将数据使用ResourceDescriptionFramework(RDF)格式表
2、示为LinkedData,可以促进数据集与其他web资源的整合。RDF可以将数据变成机器可读的形式,并且可以使用扩展的词汇表达更多的信息。将这些数据进行集成,并且对这些集成的数据进行挖掘,可以使人们对药物的复杂特性进行分析。基于生物活性数据集的药物网络分析,结合复杂网络分析进行药物发现,是现在药物研发技术的重要趋势。对于大规模数据的处理和图分析,异步并行的GraphLab框架表现出良好的性能。可以在分布式的环境下,对大规模数据进行图模型的构建和分析。本文提出了基于GraphLab的生物语义数据集的分布式图模型构建系统。在上
3、述系统中,将基于属性共现的节点相似度算法应用于欧洲生物信息研究所研发出的ChEMBL数据库,构建出基于“药物天然产物—活性”的二部图,并应用GraphLab框架,计算天然产物基于活性特征的相似度。并且对相似度较高的天然产物进行活性的推荐,从而指导天然产物的活性探测试验,应用于药物研发早期的药物靶标发现与选择。关键词:药物发现,活性,并行计算,节点相似度算法IABSTRACTTherapidgrowthofpublicdatainchemicalandbiologicalfields,providesmoreopportun
4、itiesforpeopleinthefieldofdrugresearchanddevelopmentforlargedatamining.Thesedatasetsareincreasinginscaleandcomplexity,whichmakesitdifficulttoexpressandstorethedata.ThedataisrepresentedasLinkedData,anditcanpromotetheintegrationofdatasetsandotherwebresources.RDFcant
5、urndataintoamachinereadableform,anditcanbeusedtoexpressmoreinformationinanextendedvocabulary.Byintegratingthesedataandminingthesedata,wecananalyzethecomplexcharacteristicsofthedrug.Basedonthedrugnetworkanalysisofthebioactivitydatasets,thediscoveryofdrugcombinedwit
6、hcomplexnetworkanalysisisaninvisibletrendofmoderndrugdiscoverytechnology.Asfortheprocessingoflarge-scaledataandgraphanalysis,theasynchronousparallelcomputingframeworkofGraphLabshowsgoodperformance.Inthedistributedenvironment,wecanconstructandanalyzethemodelofthela
7、rgescaledata.Inthispaper,weproposeadistributedgraphmodelconstructionsystemforthesemanticdatasetbasedonGraphLab.Intheabovesystem,byapplyingthenodessimilarityalgorithmbasedonattributeco-occurrencetoChEMBLdatabasedevelopedbyEuropeanBioinformaticsInstitute,weconstruct
8、thebipartitegraphbasedon“compound-target”network.Then,withtheframeworkofGraphLab,wecalculatethenaturalproductsimilaritybasedonactivity.Inordertogiveinst
此文档下载收益归作者所有