基于高通量测序数据结构变异检测方法探究

基于高通量测序数据结构变异检测方法探究

ID:5942384

大小:31.50 KB

页数:9页

时间:2017-12-29

基于高通量测序数据结构变异检测方法探究_第1页
基于高通量测序数据结构变异检测方法探究_第2页
基于高通量测序数据结构变异检测方法探究_第3页
基于高通量测序数据结构变异检测方法探究_第4页
基于高通量测序数据结构变异检测方法探究_第5页
资源描述:

《基于高通量测序数据结构变异检测方法探究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于高通量测序数据结构变异检测方法探究  摘要:随着高通量测序数据技术的发展,人类全基因组的测序成本在不断降低,测序速度也有了较为显著地提升。运用生物信息学的手段处理这些海量基因组数据的需求也越来越迫切,而对于基因组结构变异的检测更是这个领域的核心内容。由高通量测序数据特征入手,介绍了当前主流的生物信息学结构变异检测方法,并阐述了有关基因组结构变异检测结果的评测指标和手段,最后,结合个人基因组的发展,对于该领域未来的发展提出了改进建议。关键词:高通量测序;结构变异检测;生物信息学中图分类号:TP391文献标识码:A文章编号:2095

2、-2163(2013)05-0035-040引言随着人类基因组计划的宣告完成,对于人类基因组海量数据的研究工作也逐步拉开了序幕,这给生物信息学的发展提供了很好的发展机遇,同时也带来了诸多挑战。之后的千人基因组计划更提供了大量第一手的人类基因组数据,这些数据既可以为生物学数据处理提供原始输入,又能为处理生物学数据所得的结果提供了良好的验证。9当利用高通量测序数据来检测结构变异时,主要有以下几种思路。第一种是单纯依靠覆盖率信息的方法,这种方法是最早提出检测结构变异的方法,现在已很少单独利用。第二种主要是依靠双末端测序数据中非一致序列并通

3、过聚类来发现结构变异信息,这种方法很难发现具体的机构变异位点信息。第三种方法是利用splitread来精确发现结构变异,这种方法可以精确发现结构变异信息,但是重复序列对其影响很大。现在大多数结构变异检测软件都会集成整合上述几种方法,取长补短,并会相应地构建一套独特的数据筛选处理流程,运用更快捷更有效的算法,由此而不断提高基因组结构变异检测的能力。1高通量测序数据介绍1.1高通量测序技术的介绍[HTSS]对于人类基因组的全测序技术是解决基因组生物信息学的一个至关重要的前提。传统意义上最著名应用、最广泛的测序方法是Sanger测序法[1

4、],这种方法起源于上世纪70年代,已经过不断地改进而逐步趋于完善。而且,在2001年得到的第一条人类全基因组序列主要采用的就是这种方法,不过,这一过程是通过全球多个研究机构的共同努力,且耗费了数年时间花费巨资才完成。9随着对于更廉价、更快捷测序技术的需求激增,并经过该领域科学家的通力协作,高通量测序技术应运而生。高通量测序技术的出现极大地降低了全基因组的测序时间以及测序花费。表1中显示了几种高通量测序技术的花费和优缺点,最后一列是第一代Sanger测序技术。从表中可以发现,虽然设备较贵,但是Illumina测序仪还是有相对便宜的价格

5、和时间开销,并且由于Illumina测序仪可以使用户根据其需求生成不同的测序数据,因此,在结构变异检测中,原始数据大多数是通过Illumina测序仪得到的。1.2双末端测序数据介绍在Illumina测序仪的结果中主要会产生两种数据,一种是单末端数据(singleend),一种是双末端测序数据(pairend)。这两种数据分别是根据不同的生物学手段得到的,其中双末端测序数据不仅有短序列(read)信息,而且还包含了插入距离信息,这对于同一组序列的位置关系提供了新的一种依靠和保证。在此重点介绍有关双末端测序数据的相关信息。在双末端测序数

6、据中,主要包含了相对基因组的上游序列信息、下游序列信息和插入距离信息,而且数据总是成对出现。由于在处理单末端数据时,主要通过短序列覆盖率信息和短序列自身信息来检测结构变异,在利用双末端测序时,不仅可以使用单末端数据中的信息,更能通过对于插入距离的信息来有效地检测结构变异,因此,在检测结构变异的时候大量采用了双末端测序数据。92基因组结构变异类型介绍随着人类基因组测序技术的进步,全基因组的数据每天都以海量的规模在增长。即使是两个不同人种的同性个体,其基因组之间的差别也是相当小的,虽然比例非常低,但是由于人类全基因组有30亿碱基序列,所

7、以其数目仍是非常可观的,也正是这些差别导致了人类所有个体之间的万千差别。因此,开展这些差异的研究对于无论是疾病、或是医学等其他领域都有着至关重要的深远意义。将参考基因组作为比对依据,由此得到的差异信息主要分为两类。第一类是SNP(单核苷酸多态性);第二类是结构变异,在结构变异中较为常见的则是如图1所示的片段删除和片段插入。一般来说,将某个体的基因组序列同参考序列进行比对,如果在一段序列区间内仅有一个位点不同,就将认定为SNP信息。如今的主要检测方法是基于贝叶斯估计进行分类,这种方法当1-5bp的结构变异时,就会产生一个基于统计学的较

8、准确的结果,不过对于长序列问题的复杂度却会迅速增加,分析难度也会显著加大,此时该方法就不再可取。3主流结构变异检测方法9相较于数量众多、性能优良的DNA序列比对工具,结构变异的检测工具一方面由于其发展起步较晚的影响,另一方面则由于结构

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。