关于人口相关研究统计方法教程

关于人口相关研究统计方法教程

ID:42760701

大小:186.49 KB

页数:10页

时间:2019-09-22

关于人口相关研究统计方法教程_第1页
关于人口相关研究统计方法教程_第2页
关于人口相关研究统计方法教程_第3页
关于人口相关研究统计方法教程_第4页
关于人口相关研究统计方法教程_第5页
资源描述:

《关于人口相关研究统计方法教程》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、关于人口相关研究统计方法的教程概要:尽管基因关联研究已经和我们在一起很多年了,即使是最简单的分析也没有最合适的统计过程的共识。这里我概述了人口关联研究的统计方法,包括初步分析(Hardy-Weinberg平衡测试,相位和缺失数据的推断,SNP标记),以及单SNP和多点测试。我的目标是概述关键方法,简要讨论问题(人口结构和多重测试)、解决方案的途径和一些正在进行的开发。要点:一一尽管人口相关性研究并不新鲜,但在适当的统计分析方面仍存在许多分歧。这篇文章概述了统计方法,包扌舌争议领域和正在进行的开发。它不考虑以家庭为基础的相关性研允,也不考虑联系或混合研究。——我首先介绍了

2、对关联测试的初步分析:对HardyWeinberg平衡的测试;输入缺失的基因型数据;从基因型数据推断出单倍体类型;连锁不平衡的测量和复合率的估计;并选择标记snp0一一在关联测试中,我涵盖了病例对照、定量和有序的表型,以及基于单SNPs、多重SNPs和单倍体类型的分析。对与全基因组关联研究相关的问题进行了讨论。——我讨论了基因组控制和其他解决人口分层问题的方法。一一我特别关注多重测试的问题,并讨论了解决问题的频率和贝叶斯方法。正文:人口相关性研究的目标是定义多态性摸式,多态性模式在不同疾病状态的个体间有着系统地不同,因此可以代表风险升高或保护性等位基因的影响(框1、2)

3、0这听起来很简单:但是,与对照相比,发现在病例中过度表现的等位基因模式是很难的。Box1:关联研究的基本原理人口相关性研究是比较不相关的个体,但“不相关”实际上意味着关系是未知的,并且被认为是遥远的。因此,我们不能在几代人之间追踪表型的传播,并月.必须依赖于有着当前标记等位基因的当前表型的相关性。这样的相关性可能是由一组或多组、在随机位点上共享一个相对较近的共同祖先的案例产生的。自从这位点上这组的最近共同祖先可以分解全部相关性表型(除了最紧密联系的标记等位基因)以来,重组发生了,如果标记密度足够高,这允许好映射(1标记/10kb,但是这取决于局部的连锁不平衡水平)Mos

4、trecentcommonancestorTimeCopyright©2006NaturePublishingGroupNatureReviews

5、Genetics这个原理在图中说明了,为了简单起见,我假设有单倍体,比如在男性中有X连锁位点。彩色圆圈表示观察到的等位基因(或单倍体类型),颜色表示病例或对照;标记信息没有显示。在阴影的椭圆屮,等位基因都来自于一个风险增强的突变等位基因,这个等位基因可能在过去的几百代(红星)中出现,所以在这个群体屮有过多的病例。因此,在相对于对照的情况下,病例屮突变等位基因以及与之紧密相连的等位基因的数量过多。这个图还显示了在同一个位点上的

6、第二个微小的突变等位基因,这可能是无法检测到的,因为它只会导致很少的病例。尽管在关联研究屮使用的SNP标记可以有多达四个核苛酸等位基因,因为它们的低突变率大多数是双等位基因,而且许多研究只包括双等位基因。随着对缺失多态性的兴趣越来越大,对SNP基因型的三等位分析可能会变得更加普遍(将缺失作为第三个等位基因),但是在这篇文章中,我假设所有的SNPs都是双等位基因。广泛地说,关联研允只有在常见的因果变异中才有足够的力量。“常见”的阈值取决于样本和效果的大小以及标记的频率,但是作为一个粗略的指导,小等位基因的频率可能需要高于5%o对CDCV假说(常见疾病,主要由常见变异导致。

7、)的争论基本上取决于人类有效的人口规模是小的。一个相关的论点是,许多现在已经致病的等位基因在过去可能是有利的(例如,那些偏爱脂肪储存的等位基因)。此外,对迟发性疾病和只会带來很小风险变异的选择压力预计将是微弱的。尽管一些常见的复杂疾病的变异己经被识别出來,但我们仍然没有清楚地知道CDCV假说的程度。一个根本的问题是,基因组是如此之大,以至于暗示了因果多态的模式很可能是偶然产生的。为了帮助区分因果信号和虚假信号,需要建立严格的统计意义标准;另一种策略是,考虑到只有多态性模式可能可以通过因果遗传变异产生,这给了我们冃前对人类遗传历史和进化过程,如突变和重组的理解。检查系统错

8、误和处理缺失值会带来更多的挑战。在研究的上游,在研究设计阶段,需要考虑儿个问题,例如:有多少人应该被基因测型?在标记多少?如何选择标记和个体。在这篇文章中,我调查了当前应对这些挑战的方法。我的目标是对不同的统计问题和它们之间的关系进行广泛的讨论,并提出一些解决方案和进一步信息的來源。我首先看的是在关联测试Z前的统计分析,然后根据单个snp、多个SNPs和单倍体类型进行关联测试。我还简要地介绍了一些调整,以允许可能的人口分层(或人口结构)和方法来解决多重测试的问题。我希望那些处理基因关联数据的人能够更清楚地了解统计问题,并为新的或改进的方法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。