数据分析文献阅读-测序深度和覆盖度剖析课件.ppt

数据分析文献阅读-测序深度和覆盖度剖析课件.ppt

ID:57418697

大小:44.00 KB

页数:24页

时间:2020-08-18

数据分析文献阅读-测序深度和覆盖度剖析课件.ppt_第1页
数据分析文献阅读-测序深度和覆盖度剖析课件.ppt_第2页
数据分析文献阅读-测序深度和覆盖度剖析课件.ppt_第3页
数据分析文献阅读-测序深度和覆盖度剖析课件.ppt_第4页
数据分析文献阅读-测序深度和覆盖度剖析课件.ppt_第5页
资源描述:

《数据分析文献阅读-测序深度和覆盖度剖析课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基因组分析的关键因素 —测序的深度和覆盖度李言2014-08-19目录基因组从头测序基因组重测序转录组测序基因定位分析基本概念测序深度:测序得到的碱基数量与待测基因组的比值,假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。测序覆盖度:测序获得的序列占整个基因组的比例,例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。Gap:由于基因组中复杂结构(高GC,重复序列)的存在,使得测序最终拼接组装获得的序列往往无法覆盖所有的区域,这部分区域就是Gap。基本概念覆盖度的冗余也叫深度或覆盖深度。LN/G表

2、示:L代表阅读的长度,N代表阅读序列的数量,G代表单倍体基因组长度。一般而言,越高覆盖度的测序方法往往要求越高的花费。真实的测序方法中读码序列很短(小于250个核苷酸),并且有错误;可以通过增加读码序列的数量来克服它,比如:具有1%错误变异率的译码,在结合8个相同的包含变异位点的序列后可以使错误率变为十万分之一。基本概念Lander–Waterman公式:揭示人类基因组和外显子组测序的一般性规律。从公式中知:通过试算基因组的测序深度的方差来评估覆盖度的均匀性非常重要。从Box1中知:覆盖度越高最后测序的碱基数也越多,而且读码序列的个数与长度之间具有一

3、定的关系,并且在一定的比例时测序效果最好。基因组从头测序指不依赖于任何已知基因组序列信息对某个物种的基因组进行测序。决定测序深度的主要因素是错误率、拼接算法、读码序列的长度和基因组的重复的复杂性。经常使用混合的方法得到高质量的拼接,比如高深度、短阅读测序的优势常与低深度但是长阅读测序法相结合。基因组从头测序例如野生草山羊序列的拼接,因为它具有4.4Gb并且三分之二的区域有高度重复的转座元件,所以测序非常困难。首先成功把原始序列拼接成短序列,使用了45个文库中的高质量的短阅读长度的398Gb的数据,其中的覆盖率达到了90倍。然后这些片段可以使用双尾阅读

4、信息与长的支架进行串联。基因组从头测序低覆盖度在测序后分析和生物学解释方面有两个主要的影响:1、它不能确定是否有编码蛋白质基因的缺失、开放阅读框的中断、一个真正的进化基因的丢失。2、更严重的是低覆盖度会产生序列的错误,并且会随着下游的分析和误导性的结论而进行扩散。基因组重测序对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析。与已知序列比对,寻找单核苷酸多态性位点(SNP)、插入缺失位点(InDel)、结构变异位点(SV,StructureVariation)位点及拷贝数变化(CNV)。测序的深度取决于研究的变异类型、疾病的类型

5、和区域的长度。基因组重测序测序的策略取决于测序深度和样本数量之间的权衡。WGS(全基因组测序):高深度的WGS方法对DNA测序来说是黄金准则,因为它几乎可以探测到所有的变异类型。WES(全基因组外显子测序):WES主要探测在蛋白质编码基因中的SVNs(单核苷酸变异)、indels(插入缺失)和其他的功能元件,因此它忽略了调节元件比如启动子和增强子。WES的测序花费比WGS要少,但它具有各种的限制条件。基因组重测序SNV和indel检测:使用Illumina短阅读技术表明,纯合型的SVNs的检测使用15x的覆盖度,杂合型的为33x。变异检测的能力会因碱

6、基的质量低和覆盖度不均匀而下降。CNV检测:CNVs可以通过对WES和WGS两种测序的数据使用分析覆盖深度来得到,其中拷贝数目的变化可通过基因组区域的覆盖深度的变化推导得到。在WGS中0.1x的覆盖度可以获得合理的特异位点。基因组重测序数据的分析:典型的重测序数据的分析途径是把测序的短序列与参考的基因组进行比对。基因组重测序WGS:80x的覆盖度要求覆盖89.6–96.8%的目标碱基,这取决于测序的平台但是至少要10x的覆盖度。外显子的研究中要求至少80%的目标区域被覆盖,并且使用10x的覆盖度。群体基因组测序中,许多基因组的测序都是短阅读序列的方法

7、,比如:400个样本,4倍的覆盖度。基因组重测序四种不同测序策略(WES,WGS,RNA-seq,ChIp-seq)的测序对深度的要求也不相同。它们的测序深度和测试的花费按以下的顺序递增:ChIp-seq,RNA-seq,WES,WGS。ChIp-seq,WES,WGS具有典型的应用和标准的测序深度,但是RNA-seq的深度与它们不一致,并且差距非常之大。转录组测序RNA-seq:可以对生物样本的表达转录物进行检测和量化分析,但没有明确的指南和阅读数量的要求。它的应用主要包括:异常转录物的发现,差异性表达和可变剪接的分析。转录组测序中的覆盖度:读码序

8、列的数量取决于RNA的最小丰度;有用的读码序列可以通过减少核糖体RNA,丰富RNA的数目来进行优化。转录组测

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。