欢迎来到天天文库
浏览记录
ID:39308379
大小:10.42 MB
页数:48页
时间:2019-06-30
《基因组序列组装的理论与方法(简介)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基因组序列组装--理论与方法北京大学生物信息中心科学院北京基因组研究所李松岗lsg@pku.eud.cn010-62756803两种测序策略分级鸟枪法(BACTOBAC)基因组DNA切成大片段构建BAC文库挑选构建小片段shotgun文库测序组装BAC序列组装基因组序列全基因组鸟枪法基因组DNA构建不同长度shotgun文库测序组装基因组序列基因组测序与组装示意图基于BAC方法的优缺点优点:组装被局限在BAC的范围内,受重复序列影响小,对计算能力要求不高;缺点:需要大量前期生物学研究工作,效率低,成本高。
2、全基因组鸟枪法优缺点优点:不需要生物学前期准备,速度快,成本低;缺点:组装是在全基因组范围内进行,数据量大,易产生错拼;对计算机软硬件要求均高。对拼接软件的要求能充分利用正反向测序的配对信息,避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据程序并行化高效率比对能够采用全基因组鸟枪法的关键技术进步:毛细管测序仪的普遍使用计算机能力的迅速提高HierarchicalShotgun(HS)WholeGenomeShotgun(WGS)…thesequencingofthehumangenomeislik
3、elytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.MaynardV.Olson,Themaps:Clonebyclonebyclone,Nature409,816-818(2001)Shotgun法序列拼接ConsensusSequenceGapLowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)术语鸟枪法测序数据的组装鸟
4、枪法文库:目标基因组一定长度随机片段克隆的集合。正反向测序对:从同一个克隆片段两端分别测序所得到的一对序列。.插入片段长度:克隆载体中插入的外源DNA片段长度。片段连接群(contig):用识别互相重叠的方法对测序数据进行拼接的结果。.Scaffold:用正反向测序对连接的非重叠片段连接群。LW-洞:由于没有测序数据覆盖而在组装结果中留下的洞。重复序列分析覆盖度:基因组被测序数据覆盖的次数。重复数:一段DNA序列在基因组中出现的次数。深度:一段DNA序列在鸟枪法测序数据集中出现次数。例如一个转座子在基因组
5、中出现N次,测序数据集的覆盖度为C,则这个转座子的平均深度为NC。20-mer重复序列:任何深度超过为该数据集确定的重复序列标准的20-bpDNA片段。是数学定义的重复序列。重复序列洞:由于屏蔽重复序列而在组装结果中留下的洞。组装结果的评价标准N50大小:把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度一半时,最后一个contig或scaffold的大小。单碱基错误率:与参考序列比较后发现的小尺度上的不同所占的比例。所谓小尺度,在这里通常指小于标准测序长度
6、,即500bp。实际上常常只是几个碱基。错误组装的Contig:测序数据组装中出现的错误。由定义,它涉及的片段一般大于500-bp。包括与参考序列相比,插入、删除,以及在方向和次序上不同的片段。错误组装的Scaffold:把非重叠contig连接在一起时出现的错误。包括嵌套,错误的方向和顺序等。R=3segmentsw/repeat-termination“overlap-layout-consensus”algorithmexploresR!=exponentialnumberofpossiblesol
7、utionsoneEulerPathsolutiongenomesequenceofsizeG,with4repeatsO(G2)pair-wisecomparisonshotgunlibraryconstructionShotgunSequencingAssemblerConceptsRePS:全基因组鸟枪法测序数据组装软件包特点:通过屏蔽在鸟枪法测序数据中发现的重复序列来完成组装。RePS的流程图RePS2的新流程图识别重复序列的数学模型重复序列识别:若repeat有m个拷贝,且已知随机序列覆盖深度
8、为0,1,2……的概率:g0,g1,g2,……,则一次抽样repeat覆盖深度为0,1,2,……的概率P0,P1,P2,……为:n次抽样,其中i次以上深度在j以上的概率Pij设一次抽样深度在j以上和以下的概率分别为:Pj-,Pj+;n次抽样,其中i次以上深度在j以上则认为是repeat,此时犯两类错误的概率为:设repeat在基因组中的比例为b,出现概率为P,非repeat出现概率为P*,则:Tradeoffbetweenc
此文档下载收益归作者所有