测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响.pdf

测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响.pdf

ID:52490148

大小:1.71 MB

页数:5页

时间:2020-03-28

测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响.pdf_第1页
测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响.pdf_第2页
测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响.pdf_第3页
测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响.pdf_第4页
测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响.pdf_第5页
资源描述:

《测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第43卷第5期2013年5月中国海洋大学学报PERIODICAI。()FOCEANUNIVERSITYOFCHINA43(5):120~124Mav,2013测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响。窦锦壮1一,赵熙强2,付晓腾1,焦文倩1,王南南2,张玲玲1,胡晓丽1,王师P,包振民1(中国海洋大学i.海洋生命学院海洋生物遗传育种教育部重点实验窒,山东青岛266003;2.数学科学学院,山东青岛266100)摘要:单核苷酸多态性(Singlenueleotidepolymorphism--SNP)被认为是揭示遗传变异理想的分子标记,近几年来一系列针对高通量测序平台的技术如

2、RAD,GBS,RRI禺2b—RAD等成为非模式生物尤其是水生动物的dell07.)0SNP标记规模开发和大样本群体遗传研究的有利途径。本文从理论上讨论了测序错误和重复序列因素对deHOVOSNP分型的影响,并利用模式生物拟南芥RAD模拟数据对理论分析进行了验证。通过理论推导和模拟验证发现测序数据量在15~20X左右时单拷贝区域内SNP被检测的概率大于95%,等位基因的支持度不小于2时能够有效屏蔽掉测序错误对SNP分型的影响(假阳性低于2%),这些为实际数据的de110730SNP分型提供了理论上的指导。关键词:deTIO'UOSNP分型;测序错误;重复序列中图法分类号:$917文献标志码

3、:A文章编号:1672—5174(2013)05—120—05第二代高通量测序技术(NGS)可以在短的时间内以较低的成本产生大量的测序数据,这些来自于基因组、转录组和蛋白质组等不同层面的数据为从系统水平上了解性状变异提供了基础。单核苷酸多态性(Sin—glenucleotidepolymorphism,SNP)是基因组中分布最广泛,揭示遗传变异理想首选的分子标记,被广泛的应用于重要疾病关联的基因筛选、物种遗传图谱的构建、动植物重要经济性状的QTL定位、群体遗传结构和系统演化分析等。无参照基因组SNP分型(deYlOVOSNP分型)在所研究的物种的参照基因组缺乏的前提下进行SNP的分型和筛查

4、。近几年来一系列基于高通量测序平台的“简化基因组”的方法如RAD,GBS,RRI。S,2b—RAD一。o等成为非模式生物尤其是水生动物的denO'UOSNP规模开发和大样本群体遗传研究的有利途径。这一系列技术的共同特点是通过限制性内切酶酶切基因组中的特定序列,来达到低成本特定目标序列高覆盖度的效果。由于参照基因组的缺乏,来源于基因组中相同位置的短序列通过聚类建成堆(cluster),然后进行SNP分型。de1"107)0SNP分型的数据分析中的2个困难:(1)测序错误的干扰。高通量测序平台的较高的测序错误率使得序列的质量值比较低而当做无用序列过滤掉,这会造成部分等位基因的丢失因而造成SNP

5、分型的假阴性。(2)基因组中重复序列的存在[8]。当有参照基因组时,短的序列可以直接比对到基因组上,处于重复序列区域的就会出现“一对多”的情况,当做“候选多拷贝序列”而被过滤掉,j。denO'UOSNP分型则需要30~100bp的序列进行“聚类”。此时处于基因组中不同位置的序列可能会聚在一起,因而产生大量假阳性SNP':10I。目前针对基于该系列新技术进行SNP分型和筛查过程中的测序错误和重复序列的影响的研究更多的体现在对数据的分析验证上。华大基因Du等[11]深入的研究了RRI。S技术开发SNP的可靠性,用Tsp451酶切人类基因组进行SNP分型的假阳性率为13.95%,假阴性率为25.

6、9%,认为碱基的测序质量值和重复序列的存在分别是造成假阳性率和假阴性率高的主要原因。HohenloheⅢ12j利用RAD-seq技术开发斑马鱼SNP标记过程中利用模拟数据分析了SNP分型的可靠性,发现测序错误率较高时,51%的“堆”是虚假的,而且SNP分型的准确率只有80%左右。针对该新技术进行dellOVOSNP分型时关于测序错误和重复序列因素影响的理论分析未见报道,仅有文献[13]针对454等技术进行SNP分型时讨论测序覆盖度下测序错误和重复序列的各自的影响,本文在[13]的基础上给出了derlOVOSNP分型时不同测序深*基金项目:国家自然科学基金重点项目(31130054);国家基

7、础研究发展计划项目(2010CBl26402);国家高技术研究发展计划项日(2012AAl0A405);教育部新世优秀人才支持计划项日(NCE7F100761)资助收稿日期:2012一01—1l;修订日期:201210—20作者简介:窦锦壮(1987一),男,博士生。Email:thinkhighly@163.cornx*通讯作者:E—mail:swang@OUC.edu.cn5期窦锦壮,等:测序错误和重复序列对de7"

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。