欢迎来到天天文库
浏览记录
ID:32151248
大小:5.52 MB
页数:46页
时间:2019-01-31
《基于遗传算法的信息snp选择方法分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于遗传算法的信息SNP选择方法研究插图索引图1.1单核苷酸多态性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.2图1.2HapMap的构建⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4图1.4基于遗传算法的二阶段信息SNP选择框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯7图2.1标签SNP子集构造。⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一12图2.2信息SNP子集构造⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..16图2.3非信息SNP重构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..16图2.4SVM模型的最优分离超平面示图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯20图3.
2、2遗传算法信息SNP选择流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯29图3.3单极性S型变换函数⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3l图3.4本文方法流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33图4.1模块交互图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯35图4.2系统界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯36图4.3TRM8数据集的预测准确度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..39图4.45q31数据集的预测准确度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯39图4.5ENm013数据集的预测准确度⋯⋯⋯⋯⋯⋯⋯⋯⋯
3、⋯⋯⋯⋯⋯⋯⋯⋯..39图4.6simulationl数据集的预测准确度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.40图4.7simulation2数据集的预测准确度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.40图4.8各数据集上运行时间比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯41图4.9各数据集上紧凑度比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯41V工程硕士学位论文附表索引表3.1原始单体型数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯22表3.2编码后单体型数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯23表4.1数据集属性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
4、⋯⋯⋯37工程硕士学位论文1.1研究背景第1章绪论诺贝尔奖的获得者RenatoDulbecco在1986年Science上发表了具有划时代意义的重要文献《肿瘤研究的转折点:人类基因组测序》。在该文中指出,如果人类希望更多、更深层地了解肿瘤的形成,则必须更多地关注细胞中的基因组。人类基因组计划HGP是20世纪80年代提出,它向世界首次揭示了人类基因组序列,其中含有30亿个碱基对。研究显示,群体中任意两个不相关个体的基因组序列上存在99.9%的相似性,而其余的0.1%差异,导致了不同个体对于罹患疾病的风险及对药物的特异性反应的差异。这些差异主要体现在,基因组上的单个核苷
5、酸点所表现出的转换如C、T之间互换,对应在其互补链表现为G与A互换,或是颠换如C与A互换等,而这些变异即称为DNA多态性,也即单核苷酸多态性(SNPs,SingleNucleotidePolymorphisms),如图1.1中显示,当随机选取大量的个体分析比较,发现个体上的7号染色体上的一段DNA序列,它包含有2200个核甘酸,这些碱基中有两个位点存在多态性【l~6J。单核苷酸多态性的研究作为当前的生物信息学研究领域中的重要课题[7~10J,由美国的研究委员会TSC和国立人类基因组研究院协同开展的单核苷酸变异分析研究显示,单核苷酸多态性有可能成为探索多基因相互作用复
6、杂疾病、个体患病易感性以及药物反应差异等重要课题的突破口。对人类基因组序列分析发现,现有基因组中存在大约3到4百万个多态位点,平均每1200个碱基对(basepairs)中存在一个SNP,而随着测序技术的发展以及考察人群规模增加,基因组中SNP分辨率也越来越高。SNP具有数量大,分布广泛,稳定性高等优点,因此,它被研究人员认为是第一代标记(限制性片段长度多态性)、第二代标记(微卫星即简短串联重复)之后的第三代标记,从而被研究人员广泛关注。当前,SNP作为一种可实施早期检测的多态变异,研究人员对个体基因组进行高分辩率的基因作图,这些信息可以为全基因组范围内的连锁分析或
7、者关联分析提供非常重要的帮助。通过分析比较个体的全基因组,可以找出与肿瘤、高血压等复杂疾病或者数量性状相关的易感基因等,因此,单核苷酸多态性已成为探索复杂疾病的形成机制的重要手段。理论上,可以对全基因组中所有已知的SNP位点进行分型,通过关联分析等方法找到与疾病连锁的基因或者直接发现易感基因,但是该分析方法的时间、耗材成本过高。研究发现,基因组内有一些信息SNP(也可以称为标签SNP),它基于遗传算法的信息SNP选择方法研究能代表其他的SNP(11~16I。所以,研究中无需对所有SNP位点做基因分型,只要对信息SNP位点进行识别,就可以区分出个体中其它位点上的基
此文档下载收益归作者所有