全基因组关联分析中snp数据补缺算法研究与实现

全基因组关联分析中snp数据补缺算法研究与实现

ID:34591278

大小:2.76 MB

页数:63页

时间:2019-03-08

全基因组关联分析中snp数据补缺算法研究与实现_第1页
全基因组关联分析中snp数据补缺算法研究与实现_第2页
全基因组关联分析中snp数据补缺算法研究与实现_第3页
全基因组关联分析中snp数据补缺算法研究与实现_第4页
全基因组关联分析中snp数据补缺算法研究与实现_第5页
资源描述:

《全基因组关联分析中snp数据补缺算法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文全基因组关联分析中SNP数据补缺算法研究与实现RESEARCHANDIMPLEMENTATIONOFSNPIMPUTATIONALGORITHMINGENOME-WIDEASSOCIATIONSTUDY张轶夫哈尔滨工业大学2015年6月国内图书分类号:TP391.3学校代码:10213国际图书分类号:681密级:公开工程硕士学位论文全基因组关联分析中SNP数据补缺算法研究与实现硕士研究生:张轶夫导师:郭茂祖教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2015年6月授

2、予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.3U.D.C:681DissertationfortheMasterDegreeinEngineeringRESEARCHANDIMPLEMENTATIONOFSNPIMPUTATIONALGORITHMINGENOME-WIDEASSOCIATIONSTUDYCandidate:ZhangYifuSupervisor:Prof.GuoMaozuAcademicDegreeAppliedfor:MasterofEngineeringSpeci

3、ality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2015Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要2005年全基因组关联分析(GWAS)的成果首次发表,在过去的10年中随着SNP(SingleNucleotidePolymorphism)测序技术的快速发展,全基因组关联分析已逐步在物种重要经济性状、植

4、物育种、基因改良以及人类复杂疾病等方面有所建树,成为一种重要的研究手段。目前已有许多方法可用于SNP检测,但是由于相关技术的约束,无论用哪种检测方法所测出的SNP数据均是带有缺失值的,重新检测则会耗费大量的时间与成本,若对这些缺失值置之不理则会影响后面的GWAS工作。隐马尔可夫模型(HMM)在生物信息学中应用的范围越来越广泛,和其它模型相比,HMM具有应用弹性大、适用范围广、参数往往具有现实意义的特点,本文中的算法所建立的模型就是应用上述特点所改进过的HMM,是一种非齐次的HMM,即状态的转移概率不仅和前一时刻

5、的状态有关还与具体的时刻有关,所以对相应算法,前向-后向算法,Viterbi算法进行了合理且必要的调整以适应改进后的模型。本文通过对HMM的研究以及对现有补缺算法的分析,提出了一种基于HMM的高效、快速的补缺方法。本算法的特点是补缺时所需的生物学信息少,运行速度快,适合对动、植物SNP的单体型数据进行补缺,算法首先建立SNP数据补缺问题与HMM的映射关系,然后利用SNP位点间的连锁不平衡度可以很好地反映出SNP位点间的关系的特点,以更快的速度计算出合理的HMM参数,再把数据补缺问题转化成HMM的解码问题,从而以

6、更快的速度进行缺失数据的补缺,最后通过用不同的有效性对补缺的结果进行评价。本文提出一种在没有参考数据集条件下的补缺算法,该算法合理利用了有限的数据信息和SNP位点间的连锁不平衡性,利用滑动窗口的方式对包含缺失位点在内的窗口中的单体型的频率进行估算,选取最有可能的单体型进行缺失位点补缺,本算法适用于对尚未建立参考数据集生物的SNP数据进行补缺,且补缺的正确率随着SNP位点间的连锁程度的提高而提高。关键词:全基因组关联分析;SNP数据补缺;隐马尔科夫模型-I-AbstractAbstractIn2005,there

7、sultofgenome-wideassociationstudywaspublished,inthepast10yearswiththerapiddevelopmentofSNPsquencingtechnology,genome-wideassociationstudyhasgraduallyhelpinanalysisimportanteconomictraits,plantbreeding,geneticallymodifiedandcomplexhumandisease,itbecomeoneofth

8、emostimportantmethods.Atpresent,therearemanymethodscanbeusedforSNPdatadetection,butduetotheconstraintsoftechnology,nomatterwhichkindsofsquencingmethodbeused,theresultalwayswiththemissingvalues,r

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。