基于hadoop的全基因组关联研究系统设计与实现

基于hadoop的全基因组关联研究系统设计与实现

ID:33216735

大小:944.34 KB

页数:61页

时间:2019-02-22

基于hadoop的全基因组关联研究系统设计与实现_第1页
基于hadoop的全基因组关联研究系统设计与实现_第2页
基于hadoop的全基因组关联研究系统设计与实现_第3页
基于hadoop的全基因组关联研究系统设计与实现_第4页
基于hadoop的全基因组关联研究系统设计与实现_第5页
资源描述:

《基于hadoop的全基因组关联研究系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hadoop的全基因组关联研究系统设计与实现DesignandImplementationofGenome-wideAssociationStudySystemBasedonHadoop领域:计算机技术作者姓名:王秋文指导教师:戴维迪副教授企业导师:姚鹏海高级工程师天津大学计算机科学与技术学院二零一二年十二月独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得天津大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究

2、所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解天津大学有关保留、使用学位论文的规定。特授权天津大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日摘要随着人类基因组精细图谱的发布,全基因组关联研究(Genome-wideassociationstudy,GWAS)得

3、到了快速发展并成为研究人类复杂性疾病遗传因素的重要手段。基因填补(genotypeimputation)能够增加研究数据中单核苷酸多态性(singlenucleotidepolymorphism,SNP)的密度,提高GWAS发现致病基因的能力,因此基于基因填补的GWAS方法得到了广泛应用。然而,这种方法目前在实际应用中存在着两方面的问题:(1)缺少综合的系统工具来完成整个GWAS的数据处理以及分析工作;(2)当前用于基因填补和关联检测的GWAS工具不能有效地应对由参考数据增加而导致的数据量和计算量大幅的增加。本文在对基于基因填补的GWAS方法和Hadoop平台进

4、行研究的基础上,实现了一个基于Hadoop平台的全基因组关联研究系统——CloudAssoc,该系统主要包括数据预处理、基因填补和SNPs关联检测三个功能模块。数据预处理模块能够实现常用数据转换和质量控制功能;基因填补模块基于Hadoop平台设计实现,用于根据公共数据预测研究数据中没有分型的SNPs位点的基因型;关联检测模块同样基于Hadoop平台实现,用于对填补后的研究数据进行SNPs的关联检测。CloudAssoc能够提高GWAS效率的关键在于基因填补模块和关联检测模块的并行化实现。本文根据对基因填补软件IMPUTE2所用模型和算法的分析研究,使用分割数据分

5、析区间的方法,将时间和资源消耗巨大的计算任务切分为众多在Hadoop集群上分布式执行的小任务,基于Hadoopstreaming框架实现了基因填补的并行化;并采用类似的方法,实现了关联检测模块的并行化。本文最后对系统进行了测试。首先对CloudAssoc中并行化软件的可扩展性、高效性、运行时间与数据分割窗口大小的关系进行了测试。测试表明,系统中并行化软件具有接近线性的加速比,具有良好的可扩展性以及高效性。最后,对CloudAssoc进行了整体测试,测试结果表明本系统能够高效完成对全基因组数据的基于基因填补的GWAS分析。关键词:全基因组关联研究Hadoop基因填

6、补SNPs关联检测并行化ABSTRACTWiththereleaseofthefine-scalemapofhumangenome,genome-wideassociationstudy(GWAS)hasdevelopedrapidlyandbecomesanimportantapprochtodetectgeneticfactorsofcomplexdisease.Becauseoftheabilitytoincreasethedensityofsinglenucleotidepolymorphisms(SNPs)instudydataandincreaset

7、hepowerofGWASforfinddingdiseasecausalvariants,imputationbasedGWAShasbeenwidelyusedinstudies.However,therearetwoproblemsnowinpracticalapplicationsofthismethed,oneisthelackageofintegratedsystemtoolstoruntheentireGWASpipelineformdataprocessingtoanalysis,andtheotheristhatcurrenttoolsforg

8、enotypeimput

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。