欢迎来到天天文库
浏览记录
ID:35007740
大小:1.91 MB
页数:66页
时间:2019-03-16
《基于JSON的基因组突变数据处理关键技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于JSON的基因组突变数据处理关键技术研究GENETICVARIANTDATAPROCESSINGBASEDONJSONDILINIDULANGIKAJATHUNGADAHANAYAKE哈尔滨工业大学2018年6月中图分类号:TP39学校代码:10213国际图书分类号:004.9密级:公开工学硕士学位论文基于JSON的基因组突变数据处理关键技术研究硕士研究生:DILINIDULANGIKAJATHUNGADAHANAYAKE导师:ASSOCIATEPROF.&DRLIUJIAN申请学位:计算机科学与技术学科:计算机科学与技术所在单位:计算机科学与技术学院答
2、辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP39U.D.C:004.9DissertationfortheMaster’sDegreeinEngineeringGENETICVARIANTDATAPROCESSINGBASEDONJSONCandidate:DiliniDulangikaJathungaDahanayakeSupervisor:AssociateProf.&Dr.LiuJianAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScience
3、andTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefense:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要新一代测序技术已经广泛用于健康遗传学、系统进化、微生物学等不同领域的研究。新一代测序技术为工业界带来了巨大挑战,例如大规模基因数据的生成、存储、转换、可视化等问题是当前研究的难点问题。大规模测序数据通常通过计算机集群进行存储和计算操作,处理和分析数据往往需要大
4、容量存储空间和高性能处理器。为了有效利用存储资源,可以通过数据库映射方式来优化处理大规模VCF数据。VCF(VariantCallFormat)是一种标准格式,是一种用于表示和存储SNPs、indels和大规模带注释的结构化变异标准化格式。当前高效管理和利用大规模VCF数据是研究的难点问题之一。目前已出现了一些致力于VCF数据处理的工具,但是从VCF到JSON的转换工具研发处于起步阶段。为此本文将研究VCF和JSON之间的映射方法,并在此基础上设计和研发VCF转换工具。大规模VCF数据的处理工具已经成为当前生物信息领域进行数据高效管理的重要基础。本文研发的从VCF到JS
5、ON的映射方法及转换工具可以通过高效且用户友好的系统平台来为生物学家提供便利。该工具基于Web环境开发,后台使用python语言、前台使用HTML5和jQuery进行用户界面开发,其支持单VCF文件上传或者压缩后批量上传,并通过映射规则生成对应的JSON数据。最后的实验结果表明本文研发的映射方法和转换工具可以在保证无损转换的同时,可以对VCF数据进行有效压缩,从而显著提升存储空间的利用效率。关键字:VCF格式,存储,查询,解析器,转换工具I哈尔滨工业大学工学硕士学位论文AbstractThearrivalofthenextgenerationsequencinghasb
6、eenusedforthewiderangeofstudiesindifferentfieldssuchashealthgenetics,phylogenetic,microbiologyetc.Thisnewtechnologymadeabigmessintheindustry,suchasthedifficultyoflargegenomicdatageneration,storage,visualization,etc,andalwaysneedofexpertbioinformatician’shelpbecomingahugechallengeforresea
7、rchersinbiomedicalfieldsnowadays.NormallyVCF(VariantCallFormat)dataarestoredandhandledinrapidcomputingclusterinpresentdays.VCFisasystemizedformatforsavingandreportinggenomicvariationssuchasSNPs,indels,andlargerstructuralvariantscollectivelywithrichannotations.Oneofthebigg
此文档下载收益归作者所有