欢迎来到天天文库
浏览记录
ID:5298103
大小:367.02 KB
页数:5页
时间:2017-12-07
《测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响_窦锦壮》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中国海洋大学学报第43卷第5期43(5):120~1242013年5月PERIODICALOFOCEANUNIVERSITYOFCHINAMay,2013测序错误和重复序列对无参照基因组单核苷酸*多态性分型的影响窦锦壮1,2,赵熙强2,付晓腾1,焦文倩1,王南南2,张玲玲1,胡晓丽1,王师1**,包振民1(中国海洋大学1.海洋生命学院海洋生物遗传育种教育部重点实验室,山东青岛266003;2.数学科学学院,山东青岛266100)摘要:单核苷酸多态性(Singlenucleotidepolymorphi
2、sm—SNP)被认为是揭示遗传变异理想的分子标记,近几年来一系列针对高通量测序平台的技术如RAD,GBS,RRLs,2b-RAD等成为非模式生物尤其是水生动物的denovoSNP标记规模开发和大样本群体遗传研究的有利途径。本文从理论上讨论了测序错误和重复序列因素对denovoSNP分型的影响,并利用模式生物拟南芥RAD模拟数据对理论分析进行了验证。通过理论推导和模拟验证发现测序数据量在15~20X左右时单拷贝区域内SNP被检测的概率大于95%,等位基因的支持度不小于2时能够有效屏蔽掉测序错误对SNP分
3、型的影响(假阳性低于2%),这些为实际数据的denovoSNP分型提供了理论上的指导。关键词:denovoSNP分型;测序错误;重复序列中图法分类号:S917文献标志码:A文章编号:1672-5174(2013)05-120-05[8]第二代高通量测序技术(NGS)可以在短的时间内的假阴性。(2)基因组中重复序列的存在。当有参以较低的成本产生大量的测序数据,这些来自于基因照基因组时,短的序列可以直接比对到基因组上,处于组、转录组和蛋白质组等不同层面的数据为从系统水重复序列区域的就会出现“一对多”的情况
4、,当做“候选[9]平上了解性状变异提供了基础。单核苷酸多态性(Sin-多拷贝序列”而被过滤掉。denovoSNP分型则需要glenucleotidepolymorphism,SNP)是基因组中分布30~100bp的序列进行“聚类”。此时处于基因组中不最广泛,揭示遗传变异理想首选的分子标记,被广泛的同位置的序列可能会聚在一起,因而产生大量假阳性[10]应用于重要疾病关联的基因筛选、物种遗传图谱的构SNP。建、动植物重要经济性状的QTL定位、群体遗传结构目前针对基于该系列新技术进行SNP分型和筛和系统演化
5、分析等。查过程中的测序错误和重复序列的影响的研究更多的[11]无参照基因组SNP分型(denovoSNP分型)在所体现在对数据的分析验证上。华大基因Du等深入研究的物种的参照基因组缺乏的前提下进行SNP的的研究了RRLs技术开发SNP的可靠性,用Tsp451分型和筛查。近几年来一系列基于高通量测序平台的酶切人类基因组进行SNP分型的假阳性率为[1-7]“简化基因组”的方法如RAD,GBS,RRLs,2b-RAD13.95%,假阴性率为25.9%,认为碱基的测序质量值等成为非模式生物尤其是水生动物的de
6、novoSNP规和重复序列的存在分别是造成假阳性率和假阴性率高[12]模开发和大样本群体遗传研究的有利途径。这一系列的主要原因。Hohenlohe利用RAD-seq技术开发技术的共同特点是通过限制性内切酶酶切基因组中的斑马鱼SNP标记过程中利用模拟数据分析了SNP分特定序列,来达到低成本特定目标序列高覆盖度的效型的可靠性,发现测序错误率较高时,51%的“堆”是虚果。由于参照基因组的缺乏,来源于基因组中相同位假的,而且SNP分型的准确率只有80%左右。置的短序列通过聚类建成堆(cluster),然后进行
7、SNP针对该新技术进行denovoSNP分型时关于测序分型。denovoSNP分型的数据分析中的2个困难:错误和重复序列因素影响的理论分析未见报道,仅有(1)测序错误的干扰。高通量测序平台的较高的测序文献[13]针对454等技术进行SNP分型时讨论测序错误率使得序列的质量值比较低而当做无用序列过滤覆盖度下测序错误和重复序列的各自的影响,本文在掉,这会造成部分等位基因的丢失因而造成SNP分型[13]的基础上给出了denovoSNP分型时不同测序深*基金项目:国家自然科学基金重点项目(31130054);
8、国家基础研究发展计划项目(2010CB126402);国家高技术研究发展计划项目(2012AA10A405);教育部新世优秀人才支持计划项目(NCET-10-0761)资助收稿日期:2012-01-11;修订日期:2012-10-20作者简介:窦锦壮(1987-),男,博士生。E-mail:thinkhighly@163.com**通讯作者:E-mail:swang@ouc.edu.cn5期窦锦壮,等:测序错误和重复序列对denovoSNP分型的影响12
此文档下载收益归作者所有