高通量测序数据中split read映射方法探究

高通量测序数据中split read映射方法探究

ID:6236529

大小:32.00 KB

页数:9页

时间:2018-01-07

高通量测序数据中split read映射方法探究_第1页
高通量测序数据中split read映射方法探究_第2页
高通量测序数据中split read映射方法探究_第3页
高通量测序数据中split read映射方法探究_第4页
高通量测序数据中split read映射方法探究_第5页
资源描述:

《高通量测序数据中split read映射方法探究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、高通量测序数据中Splitread映射方法探究  摘要:高通量测序技术的快速发展与广泛应用为计算机科学带来了新的挑战,read的映射问题是其中非常重要的一个部分。Splitread是一类特殊的read,其出现通常是由基因组中的结构变异造成的。这类read在映射中不再保持连续序列的形式,而是包含了一定长度的空位,因此具有较高的映射难度。提出一种利用双末端测序数据的映射结果来指导splitread映射的方法,这种方法可以使splitread的映射难度不再与其所包含的空位数量相关,从而降低了映射过程中的搜索空间,提高映射效率。

2、关键词:splitread;映射;高通量测序;生物信息学中图分类号:TP391文献标识码:A文章编号:2095-2163(2013)06-0030-030引言9人类基因组计划的完成为人类基因组的研究提供了一套参考基因组序列,大大地简化了人类个体基因组的序列研究,因为不同人类个体基因组序列之间有着极高的相似性,现在的研究主要专注于个体基因组序列与参考基因组序列的差异,这大大地简化了研究的过程。而高通量测序技术的不断发展,则为人类基因组研究提供了有力数据支持。为了利用高通量测序数据,需要将上亿的测序短序列(read)映射到参

3、考基因组序列上,这些read当中大部分可以以连续序列的形式被映射,但是仍有一部分read由于个体基因组序列与参考基因组序列的差异,会在映射中包含一段空位,这样的read称为splitread,其映射相比于第一类read是更为困难的。Splitread的映射往往可以显示个体基因组中变异区域的序列信息,对研究更快速、准确的splitread映射方法有着重要的意义。1基本概念1.1高通量测序数据高通量测序是一种测序DNA序列的技术。在测序过程中,将完整的样本DNA序列打碎,从中筛选出满足特定长度(通常为数百bp)的片段,然后在

4、每个片段的一端或两端各读取一段长度为数十至数百bp的序列。这些读取出的序列长度通常远远小于被测样本DNA序列的长度,但是高通量测序技术可以同时读取大量这样的短序列,使得短序列总长度达到样本DNA长度的数倍至数十倍,从而使获得样本DNA序列成为可能。1.2Read与splitread9在高通量测序中,从打碎的DNA片段上读取出来的短序列称为read。Read是被测DNA序列的一个短片段,单个的read序列长度远远短于被测DNA序列的长度,但是通过将大量read映射到参考基因组序列的方式,就可以获得被测DNA的序列内容,如图

5、1所示。测序时所读取的read是一段连续的序列,但是由于DNA结构变异的存在,一些read在映射结果中不再保持连续的形式,而是包含了空位,这样的read称为splitread。1.3双末端测序在高通量测序过程中,从打碎的DNA片段的两端读取序列的方法称为双末端测序。双末端测序中获得的读取自同一片段的一对read称为一个readpair。理论上,如果被测DNA序列与参考基因组序列完全相同,readpair被映射到参考基因组之后,其中的两个read之间的距离与被测时DNA片段的长度应当是相同的。但是由于被测DNA与参考基因组

6、序列存在差异,特别是由于结构变异的存在,readpair映射后其一对read之间的距离会与被测的DNA片段长度产生明显的差异。2Deletion对附近read与readpair映射所造成的影响Deletion是一种常见的结构变异形式,表现为被测DNA序列相比参考基因组序列缺失了部分序列。由于这种变异的存在,其附近的read与readpair在映射过程中会发生异常,如图2所示。从图2中可以看出,由于deletion的存在(黑色短线段),跨过deletion的read9pair(左)在映射后两个read之间的距离要长于被测时

7、两个read之间的距离,这个距离的差异恰好是deletion的长度。而跨过deletion边界的read(右)在映射时则会包含与deletion长度相同的一段空位,形成splitread。3利用readpair映射分析指导splitread映射的方法目前的read映射方法出于运行效率的考虑,都会限制映射结果中所允许的空位数量与长度[1-3]。有一些利用双末端测序数据特性而特别为splitread映射所设计的映射方法,利用readpair中一个映射较好的read作为基点,在临近的一段区间为另一个映射效果不好或者无法连续映射

8、的read进行允许较多空位的映射[4]。这样的方法存在着映射效果与搜索空间相关,映射难度大,效率低等问题,如图3所示。为了改进这些不足,本文提出一种利用deletion附近的readpair的映射结果来指导splitread映射的方法。从图2中可以看出,受到deletion影响的readpair,虽然其一对read之

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。