面向新一代基因组测序技术的序列拼接算法

面向新一代基因组测序技术的序列拼接算法

ID:14691355

大小:55.00 KB

页数:16页

时间:2018-07-30

面向新一代基因组测序技术的序列拼接算法_第1页
面向新一代基因组测序技术的序列拼接算法_第2页
面向新一代基因组测序技术的序列拼接算法_第3页
面向新一代基因组测序技术的序列拼接算法_第4页
面向新一代基因组测序技术的序列拼接算法_第5页
资源描述:

《面向新一代基因组测序技术的序列拼接算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、面向新一代基因组测序技术的序列拼接算法第8卷第3期2010年9月生物信息学ChinaJournalofBioinformaticsVoI.8N0.3Sep.,2010面向新一代基因组测序技术的序列拼接算法逯雯雯,卢志远,王亚旭,孙啸(生物电子学国家重点实验室东南大学生物科学与医学工程学院,南京210096)摘要:随着新一代测序技术的发展,新的拼接法应运而生.介绍了目前国际上广泛认可的几种新的拼接算法的基本原理与具体步骤,分析每种算法的优缺点以及适用范围.用Helicobacteracinonychis的Illumina1G测序数据检测SSA

2、KE,VCAKE,SHARCGS以及v.elvet的性能,并对未来拼接算法的研究提出展望.关键词:基因组测序;序列拼接;短片段中图分类号:Q78文献标识码:A文章编号:1672—5565(2010)一o3—248—06NewgenomicsequencingtechnologyorientedsequenceassemblyalgorithmLUWen—wen.LUZhi—yuan.WANGYa.xn.SUNXiao(StateKeyLaboratoryofBioelectronics,SchoolofBiologicalSciencean

3、dMedicalEngineering,SoutheastUniversity,Nanjing210096,China)Abstract:Withthedevelopmentofthenewgenomicsequencingtechnologies,alotofnewassemblyalgorithmshaveemerged.Thisar—ticledescribesthebasicprinciplesandspecificstepsofthenewassemblyalgorithmswidelyrecognizedinternationa

4、lly,analyzesthead-vantagesanddisadvantagesofeachalgorithmaswellasthescopeofapplication.SSAKE,VCAKE,SHARCGSandvelvetaretestedontheIllumina1GsequencingdataofHelicobacteracinonychistovalidatetheirperformance.Atlastthefutureresearchofthenewassem—blyalgorithmsisproposed.KeyWord

5、s:genomicsequencing;sequenceassembly;shortread目前,基因组测序仍然是基因组学的核心内容.基因组测序应用非常广泛,利用它可以获得新物种的基因组序列(从头测序),种群中某个个体的基因组序列(重新测序),从样本中获得RNA分子序列,以及在分子生物技术中将DNA序列用作读出测定(杂交测序读出变异基因).其中,获得一个物种的完整基因组序列又是测序的一个最重要的应用.近20年来,随着生物实验技术和信息处理技术的迅速发展与提高,越来越多的模式生物基因组完成了测序.其中,最引人注目的就是人类基因组计划(Hu.m

6、anGenomeProject,简称HGP).尽管我们已经成功的得到了人类¨J,小鼠以及一些其他生物的基因组序列,但是这只是生物圈中成千上万的物种中的很小的一部分.近20年来,Sanger测序技术一直是DNA测序的黄金准则,它能测得500~1000bp的read(测序片段,以后简称read),但是代价昂贵.随着测序技术的革新,测序领域发生了翻天覆地的变化,其中的杰出代表就是454Life的焦磷酸测序技术和Sol—exa/Illumina的合成测序技术,它们不仅成本更低,而且通量更高,速度更快.相比于Sanger测序结果,这些技术产生的rea

7、d更小,焦磷酸测序可产生200~300bp的read,合成测序只有25~36bp,但覆盖深度可达到100×以上.这些新一代测序技术得到的read不仅长度短,数量又极为巨大,覆盖度高,这给序列拼接带来了前所未有的难题,而基因组测序中的一个关键的步骤就是序列拼接.测序根据有无参考基因组分为重新测序和从头测序,因此序列拼接也相应分为两类,在这里我们所说的序列拼接都是指对从头测序得到的序列的拼接.传统的拼接算法无法应对这些极短的海量的数据,除此之外,测序过程中产生的错误,以及基因组中重复区域的存在,都成为拼接算法需要攻克的难关,因此,面向新一代测序

8、技术的拼接算法的技术改进迫在眉睫.目前在国际上,面向新一代测序技术的拼接算法历经了SSAKE,VCAKE,SHARCGS,Velvet以及ALLPATHS的发展,一步步走向成熟与

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。