欢迎来到天天文库
浏览记录
ID:53666897
大小:58.50 KB
页数:2页
时间:2020-04-05
《基因型填充综述.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基因型填充基因型填补是指依据已分型位点的基因型对数据缺失的位点或者未分型位点进行基因型预测的方法。对分型缺失率较高的基因芯片进行填补可以提高全基因组遗传标记的覆盖率及研究效率,增加阳性关联位点的筛杳成功率。基因型填补还可以M川于精细定位,填补已确认的关联位点附近的位点,以便评价相邻SNP位点关联证据,加快复杂疾病易感基因的定位。同时,基因型填补还可以降低直接分型的成本,对不同基因型分型平台合并导致丢失的大量缺失的基因型进行填补,可有助于对这些数据的联合分析和Meta分析。基因型填充对GWA研究发挥越来越重要的作用,并仍将成为GWA研究的重要工具2—,因此也成为了生物信息领域研究的重
2、点和热点。基于位点间的连锁不平衡(LD),目前的基因型填充主要分成两大类,一类是家系数据屮的基因型填补,另一•类是无关个体中的基因型填补。两者填充时的主要区别是家系成员中的共享染色体段比较长(一般长达儿百刀碱基对,包含数千个SNP),而无关个体屮共享染色体区域比较短,这就使得寻找匹配的单倍型成为一个挑战。基因型填充所用的参数估计算法包括期望值最大算法(EM)和马科夫链蒙特卡罗算法,川EM算法进行参数佔计计算效率相对较高,但容易陷入局部最大值;MACH不仅仅只是局部最大值,也有利于发现那些频率较小却对疾病或表型有重大影响的等位基因,这种方法迭代次数较多,计算时间也随着增加。现有的基因
3、型填充方法主要基于以下儿种统计模型:单体型聚类算法、隐马尔科夫模型、马尔科夫模型。这几年发展起-來的川于基因烈填充的软件分为两类:一类是填补每个缺失基因型的时候考虑所有分型位点,这类的软件有ImputevKImputeV2、FastPHASE、MACH、BIMBAM;另一类是填补时只考虑基因型缺失位点附近的一些已分型的位点,这类软件包括:PLINK、TUNG、WAHP、BEAGKE。Impute在分析时-假设每个个体Z间基因型是独立的,imputevl利用双倍型预测,imputev2利用单倍型预测,所以imputev2的计算时间复杂度比imputevl低。同时imputev2也适用
4、于來自不同研究纽的基因型数据,其计算效率相对H他较高,但是当表型与基因分型平台密切相关的时候,Howiseetal.发现,如果在不同的芯片上输入病例组和对照组的数据,则对单倍体参照血板屮的病例组和对照组预测未分型的SNP基因型,会导致假阳性率增加。FastPHASE灵活适用于连锁不平衡模式和大型数据集,在大量染色体情况下,计算复杂度只是线性增加,但要对模型的很多参数进行估计,这会减慢计算速度,同时,当使模型的最大似然函数最大化时,会产生较高的错误率。MACH是基于马科夫链的设计,通过蒙特卡罗方法迭代更新单倍型对,同时模型参数也在每次迭代屮更新,这使其能更灵活地进行数据集的分析,但实
5、际上,对有些参数的佔计并不是很准确,从而降低了该方法的计算效率。BEAGKE适用于局部单倍型多样的情况,所占的内存较小,但精确度比不上MACH和ImputeoPLINK、TUNG、WAHP是基于标签SNP的填充方法,这些方法简单快速,但由于没有使用所有的数据,所提供的结果不是很准确。大部分这些软件将基因型填充都分为两个阶段,第一阶段为研究样木寻找匹配的单倍型参照面板进行基因型填充,第二阶段绘对填充的基因型数据进行关联检测。H前的参照面板主要来白于HapMap的数据和1000Genome基因计划,还有一种获取参照面板的方法是从研究样本屮选择一个了样本,对这个样木进行较多位点的分型,作
6、为参照面板,这种方法虽然比直接使用HapM叩和1000Genome填充的基因型具有更高的准确度,但是基因费用高。随看参照集越来越大越來越多样,参照面板选择策略也越来越难且越来越难解释,因此参照面板的选择成为了基因熨填充的紧迫问题。现在出现一种利川局部序列的相似性,为每个基因区域的单倍型研究自定义一个参照血板的方法,这个方法提高了使用可用单倍型参考面板的效率,同时不用选择参照面板,也可以提高对低频率变量填充的准确度,但这个适用范围有限,目前对GWAS数据集中的序列还不适用,但这是用建立范式思想解决参照面板选择问题所边出的笫一步。另外,结合各种统计模型,改善基因型填充算法,如用于填补拷
7、贝数变异的方法,也是H前基因世填充研究的关键问题。
此文档下载收益归作者所有