利用“融合-提炼方法”提取肿瘤信息基因

ID：6849649

大小：876.00 KB

页数：29页

时间：2018-01-28

资源描述：

《利用“融合-提炼方法”提取肿瘤信息基因》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、利用“融合-提炼方法”提取肿瘤信息基因云南大学杨晓洁、赵留明、田丰摘要：本文基于2010年9月全国研究生数学建模竞赛A题附带的关于“22个正常人和40个结肠癌患者在2000个基因片段上的基因表达数据”，紧扣“肿瘤信息基因提取”这一主题，提出了一种“融合-提炼方法”，从数目庞大的基因中提炼出3个最显著的“信息基因”用于肿瘤的识别，并从统计假设检验和对真实样本数据的样本类别判定的角度，证明了该方法的有效性和科学性。具体说来，该方法从三个角度切入问题，逐层筛选，目标直指“搜索在正常人和结肠癌患者中表达水平差异较大的信息

2、基因”。首先，从基因与样本类别的相关性角度出发，采用单因子多变量方差分析法进行基因的重要性分析，剔除了那些对样本类别的决定没有贡献的基因。其次，从相似性角度出发，首次引入模糊数学中的算术平均贴近度，来衡量某个基因在正常人和结肠癌患者中表达水平的接近程度，在上一步的基础上剔除了接近程度很高的基因。值得注意的是，在这一部分的方法细节上，一方面创造性地构造出适合于本文研究问题的隶属度函数，并论证了该函数的合理性；另一方面通过“训练集轮换”的模拟研究方法证明了用算术平均贴近度提取重要基因的稳定性，即从经验上证明了该方法对

3、于样本的替换并不敏感。再次，从因果关系的角度出发，又在上一步的基础上采用Logistic回归分类模型提炼出与肿瘤识别有关的最显著的“信息基因”。鉴于该方法具有综合性和多样性，并层层推进，本文命名这一提取“信息基因”的过程为“融合-提炼方法”。最后，本文采用logistic回归方程分类预测法和Fisher线性判别准则来评价所提取的3个“信息基因”对于肿瘤的识别效果，两种方法均具有较高的正确识别率且识别结果大致相同，一方面说明所提取的3个“信息基因”对于不同性质的样本分类方法具有相当的稳定性和普适性；另一方面，两种方

4、法在进行样本分类时两相校正，所得结论也较为可靠。关键字：肿瘤信息基因提取融合-提炼方法单因子多变量方法差分析算术平均贴近度Logistic回归Fisher线性判别准则2目录1.问题的提出11.1研究背景11.2研究现状11.3本文的研究思路22.数据描述32.1数据来源32.2数据整理32.3建模数据的说明43.模型的假设54.基因的重要性分析模型54.1变量重要性分析的一般方法54.2基因的重要性分析模型54.3基因的重要性分析结果55.算术平均贴近度筛选模型65.1算术平均贴近度简介65.1.1模糊子集与隶属

5、度函数65.1.2算术平均贴近度75.2本文自定义的隶属度函数85.2.1基因特性的分类85.2.2自定义的隶属度函数85.3算术平均贴近度的计算125.4利用算术平均贴近度计算值剔除无关基因136.Logistic回归分类模型136.1Logistic回归模型的建立146.1.1Logistic回归模型的估计及检验146.1.2Logistic回归模型提练的“信息基因”的重要程度分析166.2Logistic回归模型的分类效果167.“信息基因”的平均差异性的假设检验178.Fisher判别准则的识别效果19F

6、isher判别准则分类效果209.“融合-提炼方法”的评价219.1“融合-提炼方法”的优点219.2“融合-提炼方法”的缺点21参考文献22附录23附录一matlab程序2321.问题的提出1.1研究背景随着大规模基因表达谱技术（譬如DNA微阵列技术）的发展，人体一些组织的基因表达的正常范围已经被获悉，这就使得与之相应的某些疾病（主要是肿瘤）的基因表达分布图有了参考的依据。如果可以利用基因表达分布图准确地进行肿瘤的识别，将对诊断和治疗肿瘤都具有深远意义。由于每一种肿瘤都有其基因的特征表达谱，从DNA芯片所测量的

7、成千上万个基因中，找出决定样本类别（即属于正常人还是结肠癌患者）的一组基因“标签”,可称为“信息基因”（informativegenes）是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在，同时也能为抗癌药物的研制提供捷径。通常情况下，在基因表达谱中,一些基因的表达水平在所有样本中都非常接近。例如，不少基因在急性白血病亚型（ALL,AML）两个类别中的分布无论其均值还是方差均无明显差别,可以认为这些基因与样本类别无关,没有对样本类型的判别提供有用信息,反而增加“信息基因”搜索的难度。因此,要挑选一组能决定样

8、本来别的“信息基因”，首先必须对“无关基因”进行剔除，进而缩小搜索肿瘤基因的范围。1.2研究现状1999年《Science》发表了Golub等针对急性白血病亚型识别与信息基因选取问题的研究结果。Golub等以“信噪比”(Signaltonoiseratio)指标作为衡量基因对样本分类贡献大小的量度,采用加权投票法进行亚型的识别,仅根据72个样本就从7129个基因中选出了5

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 29



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

利用“融合-提炼方法”提取肿瘤信息基因

利用“融合-提炼方法”提取肿瘤信息基因

相关文章

相关标签