缺失SNP位点基因型推测.ppt

缺失SNP位点基因型推测.ppt

ID:55663352

大小:911.50 KB

页数:24页

时间:2020-05-23

缺失SNP位点基因型推测.ppt_第1页
缺失SNP位点基因型推测.ppt_第2页
缺失SNP位点基因型推测.ppt_第3页
缺失SNP位点基因型推测.ppt_第4页
缺失SNP位点基因型推测.ppt_第5页
资源描述:

《缺失SNP位点基因型推测.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、缺失SNP位点基因型推测报告人:施伟相关知识基因型推测:依据已分型位点的基因型对数据缺失位点或未分型位点进行基因型预测。理论基础:位点间的连锁不平衡,即不同位点上的等位基因不是独立出现,倾向于一起传递给下一代。基因型推测作用:缺失数据推测和稀罕SNP推测基因型预测过程目前关于基因型预测的研究工作主要在两个方面:参照面板的选取和预测的方法。参照面板:参照参照面板大多是来自国际单体型图计划(HapMap),参照面板的选择主要依据研究人群来确定。HapMap第二阶段数据包括了来自欧洲(CEU)、中国北京(cHB)、日本东京(JPT)和非洲(YRI)

2、270个个体的超过310万个SNP位点信息,另一种获得参照面板的方法是从研究样本中选择一个子样本,对这个子样本的个体进行较多位点的分型,这个子样本的基因型数据就可以作为一个参照面板,这种方法比直接使用HapMap数据费用更高,但是这种方法填补的基因型具有更高的准确度。预测方法:基因型预测所用的参数估计方法包括期望最大化算法(expectationmaximizationalgorithm,EM)和马科夫链蒙特卡罗算法(MarkovChainMonteCarlo,MCMC)。现有预测方法基于的统计模型主要是单体型聚类算法、隐马可夫模型和马科夫链

3、模型。现在用于基因型预测的软件主要有:Impute、fastPhase、MACH、BEAGLEIMPUTE:假设每个个体之间的基因型是相互独立的。它把已知单体型对序列看作是HMM中的隐状态,同时定义一个以已知单体型(参照面板中的单体型信息)为条件的条件概率作为转移概率,用这些隐状态和转移概率建立HMM模型,即根据已知单体型估计缺失基因型。fastPhase:假设每一个单体型都从某一个聚类中产生。用EM算法估计模型参数,利用基于HMM中隐变量的条件分布计算缺失基因型在已观测基因型和估计的模型参数条件下的条件概率,使这个条件概率最大的基因型则成为

4、该位点基因型的填补基因型。BEAGLE:利用局部单体型聚类方法定义一个二倍体HMM。Beagle和fastPHASE都是基于HMM单体型聚类的方法,它们之间的区别在于fastPHASE在估计模型参数时使用的是EM算法,而Beagle用根据当前所估计的单体型进一步算法计算得到的经验值作为参数。MACH:这个软件是基于马科夫链模型设计的,根据个体的基因型推断单体型。这种算法做单体型分析时先随机地选择一对与已观测的基因型匹配单体型,并且为转移概率(模型的参数)估计一个初始值。在运算过程中,单体型对(Haplotypepair)会不断地通过蒙特卡罗方

5、法迭代更新。每次迭代都利用HMM对每一个个体抽取一对新的单体型,模型参数也在每次迭代中得到更新。经过多次的重复和更新后可以得到一对真正匹配(或匹配概率最大)的单体型。各种预测方法的优劣处:Impute方法不需要进行参数估计,但计算复杂度高;FastPHASE灵活适用于大型数据集,在大量染色体情况下,计算复杂度只是线性增加,但要对模型的很多参数进行估计,这会减慢计算速度;MACH通过蒙特卡罗方法迭代更新单体型对,同时模型参数也在每次迭代中更新,这使其能更灵活地进行数据集的分析,但实际上,对有些参数的估计并不是很准确,从而降低了该方法的计算效率。

6、BEAGKE适用于局部单倍型多样的情况,所占的内存较小,但精确度比不上MACH和Impute。fastPhase推测方法原理:在一些染色体短片段内,同一种群的单倍体倾向于聚集在一些相似单倍体组中。方法:建立一个基于单倍体的聚类模型,并且假设每一个单体型都从某一个聚类中产生。用EM算法估计模型参数,利用基于HMM中隐变量的条件分布计算缺失基因型在已观测基因型和估计的模型参数条件下的条件概率,使这个条件概率最大的基因型则成为该位点基因型的填补基因型。单倍体聚类模型假设:有n个单倍体,每个单倍体由M个标记SNP位点组成h=(h1,…,hn),hi=

7、(hi1,…,hiM).并假设SNP位点为二等位基因,每个等位基因标记为0或者1,每个单体型样本都来自于某一个类k,总共有K个类,hi的初始的类为Zi:由于初始的类是未知的,所以单倍体hi的概率是:局部单体型聚类模型:对单倍体模型的修改,将每一个单倍体都来自于某一个类的假设替换成每一个等位基因来自于某一个特定的类。不同的颜色代表不同的类,每一列代表一个SNP位点,每两行依次代表一个个体的一对单体型。替换原因:类成员在单体型上是变化的单倍体局部聚类模型: 定义:Zim为第i个单倍体的第m个等位基因所属的类则构成一个马尔科夫链,初始状态的概率:状

8、态转移概率是:其中dm为两位点间的物理距离,rm是一个跳跃率。所以单倍体hi的概率是:单倍体聚类模型到基因型数据的扩展:主要方法是认为由两个单倍体组成的未分型的基因

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。