全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析.doc

全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析.doc

ID:51322763

大小:1.98 MB

页数:26页

时间:2020-03-10

全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析.doc_第1页
全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析.doc_第2页
全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析.doc_第3页
全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析.doc_第4页
全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析.doc_第5页
资源描述:

《全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、2016年“华为杯”第十三届全国研究生数学建模竞赛学校西南大学参赛队号10635001队员姓名1.彭敏2.吴战3.陈环宇题目具有遗传性疾病和性状的遗传位点分析摘要遗传性疾病和性状的相关联位点分析对人类研究遗传学具有重要意义。目前许多疾病或性状均有典型的多基因遗传特性,即具有众多基因共同控制,且单个基因的作用较小的特点,非常适用于全基因组关联性分析(GWAS)的研究。本文通过建立卷积神经网络模型(ConvolutionalNeuralNetwork,CNN),对相应的数据进行分析和统计,完成了对遗传疾病、性状与其相关联位点的分析。我

2、们通过训练该网络模型,实现了在许多位点中寻找与相应疾病或性状有关的位点。对于问题一,要求根据合适的方法,把1000个样本在染色体片段上所有的位点信息转换为数值编码方式。本文考虑到数值编码不仅要体现碱基的生物特性,同时要考虑到后续的数据存储、运行和统计分析。因此,我们的编码方式是C对应(01)、T对应(11)、A对应(00)、G对应(10)。对于问题二,要找到某种疾病最有可能的一个或几个致病位点。本文的解决方法是采用卷积神经网络建立模型。首先把每个样本的位点信息转换为数字编码信息进而转变为位点编码图。通过建立卷积神经网络模型,之后采

3、用反卷积的方式,建立每个样本的特征图。本文通过对1000个特征图累加并进行统计分析,最终选取了15个位点。在模型验证中,本文选取常用的分类器进行分类,包括线性判别分析(LDA)、支持向量机(SVM)、随机森林(RF)、朴素贝叶斯分离器(NBC)和Adaboost分类。对得到的15个特征位点进行分类,其结果均在80%以上,证明了本模型选取的15个位点的有效性以及合理性。对于问题三,基因是若干个位点组成的集合,并且每个基因包含的位点数目不同。在问题二的基础上,如果当某个基因包含的位点集合中的一个或几个位点属于我们已经找到的致病位点集合

4、,那么我们认为该基因与疾病相关。按照这种方式,我们找到了与疾病相关的9个基因。对于问题四,在问题二的基础上,本文通过对10种性状分别建立卷积神经网络模型。沿用解决问题二的方法,最终找到了对应这10种性状的位点。关键词:全基因组关联性分析(GWAS)致病位点卷积神经网络25一、问题重述1.1问题背景人体的每条染色体携带一个DNA分子,人的遗传密码有人体中的DNA携带。DNA是由分别带有A,T,C,G四种碱基的脱氧核苷酸链组成的双螺旋长链分子。在这条双螺旋的长链中,共有约30亿个碱基对,而基因则是DNA长链中有遗传效应的一些片段。在组

5、成DNA的数量浩瀚的碱基对(或对于的脱氧核苷酸)中,有一些特定位置的单个核苷酸经常发生变异引起DNA的多态性,我们称之为位点。在DNA长链中,位点个数约为碱基对个数的1/1000。由于位点在DNA长链中出现频繁,多态性丰富,近年来成为人们研究DNA遗传信息的重要载体,被称为人类研究遗传学的第三类遗传标记。大量研究表明,人体的许多表型性状差异以及对药物和疾病的易感性等都可能与某些位点相关联,或和包含有多个位点的基因相关联。因此,定位与性状或疾病相关联的位点在染色体或基因中的位置,能帮助研究人员了解性状和一些疾病的遗传机理,也能使人们

6、对致病位点加以干预,防止一些遗传病的发生。近年来,研究人员大都采用全基因组的方法来确定致病位点或致病基因,具体做法是:招募大量志愿者(样本),包括具有某种遗传病的人和健康的人。对每个样本,采用碱基(A,T,C,G)的编码方式来获取每个位点的信息(因为染色体具有双螺旋结构,所以用两个碱基的组合表示一个位点的信息);研究人员可以通过对样本的健康状况和位点编码的对比分析来确定致病位点,从而发现遗传病或性状的遗传机理。1.2需要解决的问题问题一:采用适当的方法,在1000个样本在某条染色体片段上所有的位点信息中,每个位点的碱基(A,T,C

7、,G)编码方式转化成数值编码方式。问题二:设计或采用一个方法,找出某种疾病最有可能的一个或几个治病位点,并给出相关的理论依据。问题三:现在有300个基因,每个基因所包含的位点已知,由于可以把基因理解为若干个位点组成的集合,遗传疾病与基因的关联性可以由基因中包含的位点的全集或其子集合表现出来请找出与疾病最有可能相关的一个或几个基因,并说明理由。问题四:在问题二的基础上,已知9445个位点和其编码的信息。在实际的研究中,科研人员往往把相关的性状或疾病看成一个整体,然后来探寻与它们相关的位点或基因。根据题目给出1000个样本的10个相关

8、性状的信息及其9445个位点的编码信息,找出10个性状相关联的位点。25二、模型假设(1)假设题中所给信息及数据均正确。(2)假设每个位点的信息不会受到其它疾病或性状的影响。(3)假设问题中所提到的性状或疾病只与9445个位点有关。(4)假设问题中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。