大规模结构化及半结构化生物数据查询方法研究

大规模结构化及半结构化生物数据查询方法研究

ID:35161707

大小:2.48 MB

页数:79页

时间:2019-03-20

大规模结构化及半结构化生物数据查询方法研究_第1页
大规模结构化及半结构化生物数据查询方法研究_第2页
大规模结构化及半结构化生物数据查询方法研究_第3页
大规模结构化及半结构化生物数据查询方法研究_第4页
大规模结构化及半结构化生物数据查询方法研究_第5页
资源描述:

《大规模结构化及半结构化生物数据查询方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文大规模结构化及半结构化生物数据查询方法研究RESEARCHONLARGE-SCALESTRUCTUREDANDSEMI-STRUCTUREDBIODATAQUERYMETHOD刘秋如哈尔滨工业大学2018年6月国内图书分类号:TP39学校代码:10213国际图书分类号:004.9密级:公开工学硕士学位论文大规模结构化及半结构化生物数据查询方法研究硕士研究生:刘秋如导师:刘健教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIn

2、dex:TP39U.D.C:004.9DissertationfortheMasterDegreeinEngineeringRESEARCHONLARGE-SCALESTRUCTUREDANDSEMI-STRUCTUREDBIODATAQUERYMETHODCandidate:LiuQiuruSupervisor:Prof.LiuJianAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:Sc

3、hoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要人类基因组计划的启动和顺利实施,使得对生命与科学的研究迈进了后基因组时代,各种基因组学、蛋白质以及疾病等相关的生物大数据呈现爆炸性增长的趋势,研究这些海量生物数据会给生命科学技术提供广阔的前景。但相继而来的便是给传统计算设备带来的巨大的计算压力。如何从“海量”的生物数据中挖掘出有价值的信息是生物信

4、息学研究的主要目的,也是目前制约生物学发展的主要瓶颈。因此,迫切需要对大规模的生物数据进行处理与分析。而近些年发展起来的大数据云计算等技术为海量生物数据的管理与分析指明了一个新的方向。本文探讨的就是如何利用大数据以及云平台的相关知识和原理实现对大规模结构化及半结构化生物数据的存储与高效查询工作。本文利用大数据的相关技术,研究了基于分布式计算平台Hadoop及其分布式处理框架MapReduce的大规模的结构化和半结构化生物数据存储与查询方法。首先,利用分布式数据库Hbase存储经过映射转换后的大规模生物数据,同时结合分布式并行计算

5、框架MapReduce设计相应的大规模生物护具查询算法,实现了对海量生物数据的高效处理。然后提出了基于Hbase的非主键的索引方法,进而对大规模生物数据查询方法进行了性能优化。在此基础上,研发了涵盖大规模生物数据存储、查询预处理、查询、非主键索引等功能的大规模生物数据管理系统,该系统利用分布式数据库Hbase来存储异构的大规模结构化和半结构化生物数据,通过相应的映射转换模型,实现了异构生物数据的统一化查询处理。同时该系统充分利用分布式并行框架MapReduce的优点,很好的适应了日益增长的大规模生物数据管理需求,提升了生物大数据

6、的处理效率。最后,通过一系列对比实验,对本文提出的算法和系统进行了验证。实验结果表明,相比于传统存储查询处理方法,本文所提出的相关方法在处理性能上具有明显优势。关键词:结构化;半结构化;生物数据;大数据;分布式计算平台;非主键索引;-I-AbstractAbstractThestart-upandsmoothimplementationoftheHumanGenomeProjecthasmadethestudyoflifeandscienceastepintothepost-genomeera.Thegrowthofbiolog

7、icaldatarelatedtovariousgenomics,proteins,anddiseaseshasshownanexplosivegrowthtrend.Researchonthesemassivebiologicaldatawillgivelife.Scienceandtechnologyprovidebroadprospects.However,oneafteranotheristheenormouscomputationalpressureontraditionalcomputingdevices.Howto

8、excavatevaluableinformationfrom"massive"biologicaldataisthemainpurposeofbioinformaticsresearch,anditisalsothemainbottleneckrestrict

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。