单倍型的分布估计和关联分析

单倍型的分布估计和关联分析

ID:33158159

大小:5.33 MB

页数:106页

时间:2019-02-21

单倍型的分布估计和关联分析_第1页
单倍型的分布估计和关联分析_第2页
单倍型的分布估计和关联分析_第3页
单倍型的分布估计和关联分析_第4页
单倍型的分布估计和关联分析_第5页
资源描述:

《单倍型的分布估计和关联分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学博士学位论文单倍型的分布估计和关联分析姓名:章寒申请学位级别:博士专业:概率论与数理统计指导教师:杨亚宁2011-06摘要摘要单倍型是一种能够反映不同位点间连锁不平衡信息的等位基因遗传序列,基于相型信息缺失的基因型数据估计单倍型分布的统计算法已被广泛研究。作为一种相对于个体基因定型设计而言效率高成本低的实验设计方法,混合DNA设计已成为全基因组关联分析中初步甄选标记位点的常用手段。在一些研究中,甚至将数以百计的实验个体血样混合在一起进行基因定型以显著降低实验费用。然而,由于计算量的限制,文献中还没有能够应用于这类大型混合DNA设计的单倍型分布估计算法。本文主要研究

2、能够应用于混合基因池任意大的混合DNA设计中的兼有统计效率和计算效率的单倍型分布估计算法,同时在匹配病例—对照设计中研究单倍型—疾病关联分析方法。通过假定哈代—温伯格平衡律成立和等位基因频率具有渐近正态性,本文引入了被称为重要性因子的常量来分别度量每种单倍型在对数似然函数的条件期望中的贡献大小,从而该条件期望在期望—最大化算法(EM算法)的期望步中,可以表示成混合基因型数据前两阶矩的线性约束下的极大熵模型。这种被称为PoooL的算法可以采用改进的迭代标度算法高效地求解,并且能够在理论上保证获得可行解空间上的全局最优解。模拟研究表明,PoooL可以从混合基因池中包含成百上千个实验个

3、体的混合基因型数据中精确地估计单倍型分布,甚至在混合基因池中仅包含一或两个实验个体时仍然能够正常工作。PoooL的计算复杂度与混合基因池的大小无关,因此,与文献中的现有方法仅能计算少量个体混合数据相比,混合基因池较大的混合DNA设计的分析效率得到了显著的提高。模拟研究还表明,PoooL在存在基因定型错误和群体分层时的表现比较稳健。虽然PoooL在大型混合DNA设计中表现良好,但由于等位基因频率和连锁不平衡系数的估计量之间存在相关,使得基于矩估计的PoooL算法的解不是极大似然估计,从而造成统计效率的损失。本文进而通过正态密度比近似,降低了EM算法中期望步的计算复杂度,由此得到了能

4、够在渐近意义下获得单倍型分布的极大似然估计的近似EM算法。由于仅仅将上一步的迭代解代入完全样本似然即可完成迭代更新,因此该近似EM算法相比于PoooL更容易编程实现。通过引入近亲系数,本文还将该算法拓展到哈代—温伯格平衡律失效的情形中去,并可以获得渐近意义下具有最优统计效率的近似极大似然估计。当哈代—温伯格平衡律成立时,模拟研究表明近似EM算法能够获得比PoooL更小的估计偏差和标准差。进一步的模拟显示不考虑哈代—温伯格平衡律失效造成的影响会导致估计偏差增大。引入了近亲系数的近似EM算法能够有效地降低I摘要估计偏差并获得更小的均方误差。考虑到群体中通常只包含少数几种单倍型,本文通

5、过在混合基因型数据的前两阶矩和单倍型分布间的线性约束下极大化单倍型分布的稀疏性度量,提出了一种统一的算法—CSPOOL。该算法与压缩感知理论中的典型方法存在紧密联系。压缩感知理论的主要目标是设计有效的解码算法从欠定线性采样中精确地重建稀疏原始信号。由于个体基因定型设计可以看成是混合基因池中仅包含一位实验个体时的特殊的混合DNA设计,且CSPOOL的性能仅仅依赖于基因型数据的前两阶矩的估计精度,从而CSPOOL可以同时应用于混合DNA设计和个体基因定型设计。此外,通过引入近亲系数,CSPOOL还能够应用于哈代—温伯格平衡律失效时的情形。在个体基因定型设计中,当样本量相对较小时,模拟

6、研究显示CSPOOL能够在均方误差和有效累积概率方面一致地优于金标准算法PHASE。当样本量较大时,CSPOOL可以获得与PHASE相似的精确估计,同时CSPOOL的计算复杂度与样本量无关,而PHASE的计算复杂度随着样本量的增加而快速增大。在混合DNA设计中,当样本量较大时,CSPOOL的性能优于PoooL而与近似EM算法的性能相当。当样本量相对较小时,由于基因型数据的连锁不平衡系数矩阵在这时通常是病态的,PoooL和近似EM算法都会失效,而CSPOOL仍然能够正常工作,并且模拟结果显示混合DNA设计能够在实验成本和统计效率两个方面均优于个体基因定型设计。通过采用logisti

7、c回归模型刻画单倍型与疾病的关联性,本文提出了一种匹配病例—对照设计中的基于回溯似然的单倍型—疾病关联分析方法NHAP-F。NHAP-F适用于多种遗传机制,也可以用于检验单倍型与环境因子间的交互效应。由于近亲系数的引入,模拟研究表明,对于具有中等或较低发病率的遗传疾病,NHAP-F在单倍型分布偏离哈代—温伯格平衡律时较为稳健,同时NHAP-F能够获得近似无偏的参数估计,由此构造的检验,其功效一致高于文献中的相关方法。关键词:混合DNA设计,单倍型,正态近似,极大熵模型,PoooL

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。