面向全基因组关联分析的大数据存储架构设计与实现

面向全基因组关联分析的大数据存储架构设计与实现

ID:37063263

大小:2.73 MB

页数:82页

时间:2019-05-16

面向全基因组关联分析的大数据存储架构设计与实现_第1页
面向全基因组关联分析的大数据存储架构设计与实现_第2页
面向全基因组关联分析的大数据存储架构设计与实现_第3页
面向全基因组关联分析的大数据存储架构设计与实现_第4页
面向全基因组关联分析的大数据存储架构设计与实现_第5页
资源描述:

《面向全基因组关联分析的大数据存储架构设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文面向全基因组关联分析的大数据存储架构设计与实现作者姓名王博学科专业计算机科学与技术指导教师董守斌教授所在学院计算机科学与工程论文提交日期2018年4月20日DesignandImplementationofBigDataStorageArchitectureforGenome-wideAssociationStudyADissertationSubmittedfortheDegreeofMasterCandidate:WangBoSupervisor:Prof.DongShoubinSouthChinaUniversityofTechnologyGuangzhou,China分类号

2、:TP3学校代号:10561学号:201520130745华南理工大学硕士学位论文面向全基因组关联分析的大数据存储架构设计与实现作者姓名:王博指导教师姓名、职称:董守斌教授申请学位级别:工学硕士学科专业名称:计算机科学与技术研究方向:大数据与高性能计算论文提交日期:2018年4月20日论文答辩日期:2018年5月31日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:文贵华委员:董守斌郑运平张艳青董敏华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导T独立进行研宄所取得的研宄成果。除了文屮特别加以标注引用的内容外,本论文不包含任何其他个

3、人或集体d经发表或撰写的成果作品。对本文的研宄做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。今作者签名:曰期孓臂:年月>曰学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,艮P:研宄生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子I允许学位论文被查阅(除在保密期内的保密论文外);学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文一。本人电子文档的内容和纸质论文的内容相致

4、。本学位论文属于:□保密(,校保密委员会审定为涉密学位论文时间:年)__月闩__于__年_月日解密后适用本授权书。___0不保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览;同意将本人学位论文提交屮国学术期刊(光盘版)电子杂志社全文出版和编入CNKI《中国知识资源总库》,传播学位论文的全部或部分内容。“”(请在以上士相应方框内打V)作者签名:日期:飞指导教师签名:日期作联者联系电话:电子邮箱:系地址(含邮编):摘要近年来,随着生物基因技术的飞速发展,基因数据呈现井喷式增长,生物基因学进入大数据时代。丰富的基因数据给生物

5、医学领域解锁了新的研究方向,同时也带来了大数据存储的难题。全基因组关联分析是当下最具意义的研究领域之一,是实现精准医疗的重要方法,其依靠基因变异数据作为分析的基础,然而由于全基因组关联分析对基因变异数据的访存要求多样,当前没有适合于该场景的大数据存储架构。根据该场景下的数据特点与访存要求,设计并实现一个简单易用的高扩展性基因变异数据存储架构,解决存储瓶颈问题,对推动精准医疗的发展具有重大的意义。在现有大数据存储研究的基础上,提出了面向全基因组关联分析的架构模型,融合了新型列式存储引擎Kudu、大数据查询引擎Impala及分布式位图索引等技术。基因变异数据文件经过基于样本人种信息的切分,存入新型

6、列式存储Kudu中,以提供低耦合的基础数据访问服务。通过Kudu的存储特点,满足场景中对变异数据的低延迟随机访问以及高效的范围分析的要求,并保证系统的高可用性和高扩展性;针对Kudu索引方式单一,在进行复杂分析时退化成全表扫描的问题,根据数据特征提出了基于Kudu的分布式位图索引方案,并通过大数据处理框架Spark实现了压缩位图索引的并行建立和处理算法,设计的分布式位图索引具有高效的分析能力,且在大规模数据场景中能良好扩展;为了提高系统的易用性,使用了大数据查询引擎Impala提供SQL-like语法,提供了一个简单高效的查询、分析统一平台。通过实验对比分析了本架构与其他大数据存储方案在全基因

7、组关联分析场景中的性能表现,发现本方案模型简单,在处理场景中各种数据查询时具有统一的高效表现,且较其他方案有数量级的性能提升。整个架构模型具有良好的通用性和扩展性,适合一般云计算平台,为全基因组关联分析打下了良好的基础。关键字:全基因组关联分析;大数据存储;Kudu;分布式位图索引;SparkIAbstractInrecentyears,withtherapiddevelopmentofbiolo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。