决策树膜型在冠心病全基因组关联研究中的应用

决策树膜型在冠心病全基因组关联研究中的应用

ID:33408949

大小:1.73 MB

页数:42页

时间:2019-02-25

决策树膜型在冠心病全基因组关联研究中的应用_第1页
决策树膜型在冠心病全基因组关联研究中的应用_第2页
决策树膜型在冠心病全基因组关联研究中的应用_第3页
决策树膜型在冠心病全基因组关联研究中的应用_第4页
决策树膜型在冠心病全基因组关联研究中的应用_第5页
资源描述:

《决策树膜型在冠心病全基因组关联研究中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据论文独创性声明本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了谢意。作者签名;立是边日期:丝廛:签:墨论文使用授权声明本人完全了解复旦大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此规定。作者签名:独遗导师签名:日期:

2、趔塑:甾!≥万方数据目录中文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.3Abstract⋯⋯⋯⋯⋯⋯.⋯...........⋯⋯⋯⋯⋯⋯⋯....⋯⋯⋯⋯.⋯⋯⋯......⋯⋯⋯⋯...4l!;I言⋯⋯.⋯⋯⋯......⋯⋯⋯..⋯⋯⋯..........⋯⋯.⋯..⋯.....⋯⋯⋯⋯.⋯....⋯⋯....51.1问题背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.51.2GWAS的设计与数据分析方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯71.3本论文的研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

3、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92决策树方法简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102.1基本概念⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。102.2决策树的构建⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。122.3决策树的剪枝⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.142.4决策树的评估⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯142.5常用决策树算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。153实证分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.173.1初

4、筛自变量⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。173.2建立决策树模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.3随机二次抽样⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。253.4结果比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。264总结和讨论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.28参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯30致{射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.33附录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

5、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.34万方数据中文摘要冠心病是一类由遗传与环境因素相互作用引起的复杂疾病,是世界范围内死亡和致残的一个重要原因。对冠心病的全基因组关联研究是近年来的研究热点。以往的冠心病全基因组关联研究大多采用一些经典的统计方法。然而,由于全基因组数据量大,自变量远多于观测数,使得经典方法往往不适用。本文分析的是来源于WTCCC的冠心病数据,包含了4864名被试者的393474个基因位点的信息和被试者是否患病的O.1变量。其中有1926例冠心病病例和2938名对照,冠心病病例占总观测40%左右。

6、每个位点有三种单核甘酸形态,为无序属性变量。采用决策树方法来分析这批数据对冠心病GWAS的两类问题,一是寻找与冠心病相关联的易感位点,二是预测是否患病。决策树对于这类问题的分析有不少的优点,它是一种非参数方法,所作的先验假设较少:易于处理离散型的数据;自变量之间的相关对建模及预测的影响不大。我们查阅了GWAS的有关文献,未找到使用决策树模型的文献。针对wTCCC的冠心病数据,本文使用决策树模型挑选出了5个与冠心病相关联的易感位点(自变量),使用多种评估方法得到的准确率都稳定在74%左右,这比已有文献报导的预测准确率要高。关键词:

7、决策树数据挖掘冠心病全基因组关联研究万方数据AbstractCoronaryarteryheartdisease(CAHD)isacomplexdiseasethatiscausedbybothenvironmentalandgeneticfactorsandhasbecomeoneoftheleadingcausesofdeathanddisabilityworldwide.Withthedevelopmentoftheresearchofgenome-wideassociationstudy(GWAS),theresearc

8、hofthecauseofCAHDisemphasizingparticularlyongeneandbecomeshotspotrecently.PlentyofstatisticalmethodsareusedinGWAS,suchasChi·squaret

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。