基于hadoop的rna-seq分析系统的设计与实现

基于hadoop的rna-seq分析系统的设计与实现

ID:23615428

大小:455.73 KB

页数:69页

时间:2018-11-09

基于hadoop的rna-seq分析系统的设计与实现_第1页
基于hadoop的rna-seq分析系统的设计与实现_第2页
基于hadoop的rna-seq分析系统的设计与实现_第3页
基于hadoop的rna-seq分析系统的设计与实现_第4页
基于hadoop的rna-seq分析系统的设计与实现_第5页
资源描述:

《基于hadoop的rna-seq分析系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号UDC密级公开硕士研究生学位论文基于Hadoop的RNA-seq分析系统的设计与实现申请人:张蕾学号:2161434培养单位:计算机科学技术学院学科专业:计算机技术研究方向:生物信息指导教师:马吉权副教授完成日期:2018年4月9日中文摘要DNA测序是生物信息学的一项重要内容。从一代测序到二代测序,测序技术历经了方法和效率的巨大改变。在二代测序中,一次测序就可以获得GB级别的大规模测序数据。高通量测序产生的海量RNA-seq对数据分析技术提出了更高的要求。在分析RNA-seq数据的流程中,读段定位是分析RNA-seq数据的第一步,也是最重要的一步;读段定位直接影响着下游一系列数据分析

2、的结果;已有大数据分析和计算技术为读段定位在运行时间和定位灵敏度上进一步提升提供了可能。以Hadoop为计算平台,本文开展了以下三个方面的研究工作:RNA-seq读段定位算法的研究;RNA-seq可变剪接识别算法的研究;RNA-seq数据分析结果的可视化。Hadoop作为大数据分析的主流计算平台,其计算特点可用来分析RNA-seq数据,本文设计了一个基于Hadoop的RNA-seq读段定位算法,以期提高读段定位过程运行效率,并使用种子扩展算法保证定位的灵敏度。算法主要学习了SeqMap的空位种子索引算法和mrFAST/mrsFAST的FastHASH方法,同时本文提出一个新的使种子定位到参

3、考序列上的方法,新方法利用种子会连续定位的特点对定位规则做出了改变。实验证明:与传统读段定位工具相比,本文的基于Hadoop的读段定位算法不但可以在提升时间效率的同时,还可以保证读段定位过程的灵敏度。可变剪接是读段定位的下游的分析工作之一,对于以RNA-seq数据作为输入的可变剪接识别工具,往往需要依赖读段定位的结果才能进行可变剪接的识别分析,并且这些可变剪接识别工具需要依赖多个工具的支持以及注释文件才能进行识别,安装使用过程比较繁琐,能在并行环境下工作的可变剪接工具也较少,所以本文在读段定位的基础上设计了基于Hadoop的RNA-seq可变剪接识别算法,算法是根据工具SpliceMap和

4、Tophat的思想设计而成,并提出一个新的跨越剪接位点的读段定位方法,新方法利用GT-AG剪切信号与读段种子间的规律辨别出-I-剪接位点,进而实现跨越剪接位点的读段定位。实验证明:与ASTD可变剪接数据库相比,本文提出的基于Hadoop的RNA-seq可变剪接识别算法识别准确率可以达到50%以上,具有一定的实际应用价值。此外,基于本文算法开发的可变剪接识别工具具有使用过程简单,不依赖注释文件的优势。为了更加直观地展示可变剪接的识别结果,本文利用Servlet和Tomcat技术实现了可变剪接识别结果的可视化,可变剪接的识别结果可直接以网页的形式展示,参考序列上可变剪接发生的具体位置可以清晰显

5、示,一目了然。读段定位的实验中,在2G以上的数据条件下,本文的读段定位算法的时间效率经过与Bowtie对比,可以提高将近40%,并且能识别出更多的读段,证明了基于Hadoop的读段定位算法可以提高时间效率并保证灵敏度。可变剪接实验中,本文算法通过与标准数据库对比,可以识别出参考序列五个可变剪接事件中的四个,准确率达到50%以上,可以证明本算法具有一定的实际应用价值。关键词:读段定位;可变剪接;Hadoop-II-AbstractDNAsequencingisanimportantcontentinbioinformatics.Fromgenesequencingtonextgenerati

6、onsequencing(NGS),withthedevelopmentofsequencingtechnologies,oncesequencingwillgeneratealarge-scaledataatGB-levelinNGS.Especially,themostpopularsequencingishigh-throughputRNAsequencinginNGS,whichisabigtextlibrarywithsomanyoverlappedgeneexpressionfragments.So,itisnecessarytodesignaaffectivetooltoan

7、alyzethemapping,structure,eventherelationshiptodisease.UsingHadoopasacomputingplatform,thisarticlehascarriedoutthefollowingthreeaspectsofresearch:theresearchofRNA-seqreadmappingalgorithm,theresearchofRNA-seqalter

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。