全基因组重测序大数据分析报告

全基因组重测序大数据分析报告

ID:36740497

大小:976.94 KB

页数:17页

时间:2019-05-14

全基因组重测序大数据分析报告_第1页
全基因组重测序大数据分析报告_第2页
全基因组重测序大数据分析报告_第3页
全基因组重测序大数据分析报告_第4页
全基因组重测序大数据分析报告_第5页
资源描述:

《全基因组重测序大数据分析报告》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、实用标准全基因组重测序数据分析1.简介(Introduction)通过高通量测序识别发现denovo的somatic和germline突变,结构变异-SNV,包括重排突变(deletioin,duplication以及copynumbervariation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使得在disease(canc

2、er)genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。实验设计与样本(1)Case-Control对照组设计;(2)家庭成员组设计:父母-子女组(4人、3人组或多人);初级数据分析1.数据量产出:总碱基数量、TotalMappingReads、UniquelyMappingReads统计,测序深度分析。2.一致性序列组装:与参考基因组序列(Referencegenomesequence)的比对分析,利用贝叶斯

3、统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。4.InDel检测及在基因组的分布:在进行mapping的过程中,进行容gap的比对并检测可信的shortInDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。文案大

4、全实用标准5.StructureVariation检测及在基因组中的分布:能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。高级数据分析1.测序短序列匹配(ReadMapping)(1)屏蔽掉Y染色体上假体染色体区域(pseudo-autosomalregion),将Read与参考序列NCBI36进行匹配(包括所有染色体,未定位的contig,以及线粒体序列mtDNA(将用校正的剑桥参考序列做

5、替代))。采用标准序列匹配处理对原始序列文件进行基因组匹配,将Read与参考基因组进行初始匹配;给出匹配的平均质量得分分布;(2)碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分,并校准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。(3)测序误差率估计。pseudoautosomalcontigs,shortrepeatregions(包括segmentalduplication,simplerepeatsequence-通过tandemrepeat识别算法

6、识别)将被过滤;2.SNPCalling计算(SNPCalling)我们可以采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析,保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。统计SNV的等位基因频率在全基因组上的分布稀有等位基因数目在不同类别的SNV中的比率分布(a

7、);SNV的类别主要考虑:(1)无义(nonsense),(2)化学结构中非同义,(3)所有非同义,(4)保守的非同义,(5)非编码,(6)同义,等类型SNV;另外,针对保守性的讨论,我们将分析非编码区域SNV的保守型情况及其分布(图a,b)文案大全实用标准3.短插入/缺失探测(ShortInsertion/Deletion(Indel)Call)(1).计算全基因组的indel变异和基因型检出值的过程计算过程主要包含3步:(1)潜在的indel的探测;(2)通过局部重匹配计算基因型的似然值;(3)基于

8、LD连锁不平衡的基因型推断和检出识别。Indel在X,Y染色体上没有检出值得出。(2).Indel过滤处理4.融合基因的发现(FusiongeneDiscovery)选择注释的基因信息来自于当前最新版本的EnsembleGene数据库,RefSeq数据库和VegaGene数据库。下面图例给出的是融合基因的形成,即来自不同染色体的各自外显子经过重组形成融合基因的模式图。5.  结构变异(StructureVariation)结构变异(Stru

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。