面向云平台的生物信息数据高效存储压缩研究.pdf

面向云平台的生物信息数据高效存储压缩研究.pdf

ID:50795104

大小:2.00 MB

页数:68页

时间:2020-03-08

面向云平台的生物信息数据高效存储压缩研究.pdf_第1页
面向云平台的生物信息数据高效存储压缩研究.pdf_第2页
面向云平台的生物信息数据高效存储压缩研究.pdf_第3页
面向云平台的生物信息数据高效存储压缩研究.pdf_第4页
面向云平台的生物信息数据高效存储压缩研究.pdf_第5页
资源描述:

《面向云平台的生物信息数据高效存储压缩研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、面向云平台的生物信息数据高效存储压缩研究王景如2015年6月中图分类号:TQ028.1UDC分类号:540面向云平台的生物信息数据高效存储压缩研究作者姓名:王景如学院名称:计算机学院指导教师:沈建冰第二指导教师:戴林答辩委员会主席:李侃教授申请学位:工学硕士学科专业:生物医学工程学位授予单位:北京理工大学论文答辩日期:2015年6月ResearchonCloudplatformorientedefficientstoragecompressionofbioinformaticsdataCandidateNam

2、e:JingruWangFirstFacultyMentor:Prof.JingbingShenSecondFacultyMentor:Prof.LinDaiChair,ThesisCommittee:Prof.KanLiDegreeApplied:MasterofComputerScienceMajor:BiomedicalEngineeringDegreeby:BeijingInstituteofTechnologyTheDateofDefence:Jun,2015研究成果声明本人郑重声明:所提交的学位论

3、文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要生物测序技术是分子生物学研究中的基础技术,用来测定生物基因序列组成。测序工程中产生海量的生物数据,数据规模呈指数级地快速增长。如何存储,处理和分析这些生物数据

4、是大数据时代生物学家面临的主要问题。数据压缩技术可以有效缩减数据存储量,高效利用现有存储设备和带宽资源存储共享数据,有效地缓解数据增长带来的压力。DNA序列是生物医学研究的主要数据对象,序列中存在大量因自我复制和基因突变行为产生的直接重复或近似重复的基因片段,传统压缩方法对其压缩效果不佳。高性能的DNA序列压缩方法是解决生物数据高效存储的有效方法,具有重要的研究意义。针对DNA序列的专用压缩方法尚处于研究探索阶段,早期的研究中DNA序列压缩算法利用文本压缩处理的思想缩减冗余数据,相比通用压缩方法取得了较高的压

5、缩率。随着高通量测序技术的发展,为探究不同个体基因的差异性对已测序物种进行了重测序工程,产生了很多相似个体的数据集合。集合中不仅存在单个序列内部的横向冗余信息,还存在多个序列个体间的公共冗余信息,近期的DNA序列压缩多是以寻找多个序列间的差异信息来缩减数据量。本文以传统压缩理论技术为基础,对当前DNA序列压缩技术研究学习并对其作出分类总结,利用序列对比思想对现有压缩方法进行优化改进,设计出一个对DNA序列集合高效压缩处理的方法Gcompress(Genomecompress)。该方法设计了两种压缩模式,一种是

6、针对单序列个体内部局部相似性数据缩减;另一种是对不同序列个体间相似数据缩减。两种模式利用了字典压缩的思想并结合Huffman编码方法有效缩减序列间的冗余数据。本文将新方法与通用压缩软件gzip和现有优秀DNA序列压缩方法的压缩性能进行比较。实验结果表明,单序列压缩模式与gzip相比,能在低时间消耗的同时取得较高的压缩率;多序列压缩模式与对比算法相比在保证优秀的压缩率的同时,有效提升了压缩速度。另外,本文利用Map/Reduce模型结合单序列压缩模式实现了基于分块思想的分布式压缩方法,利用数据的局部相关性有效缩

7、减冗余信息,解决单点处理大序列文件压力大的问题,有效利用生物信息处理云平台的计算资源为数据的高效存储和传输共享提供支持。关键词:DNA序列压缩;Huffman;多序列压缩;字典压缩;I北京理工大学硕士学位论文AbstractBiologicalsequencingtechnologyisthebasictechnologyofmolecularbiology,whichisusedtodeterminationofbiologicalgenesequences.Themassivebiologicaldata

8、scalegeneratedinthesequencingprojecthasanexponentiallyrapidgrowth.Intheeraofbigdata,howtostoreandanalyzeofthesebiologicaldataisamajorproblemfacedbybiologists.Datacompressiontechnologycaneffectivelyredu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。