利用“融合-提炼方法”提取肿瘤信息基因

利用“融合-提炼方法”提取肿瘤信息基因

ID:6849649

大小:876.00 KB

页数:29页

时间:2018-01-28

利用“融合-提炼方法”提取肿瘤信息基因_第1页
利用“融合-提炼方法”提取肿瘤信息基因_第2页
利用“融合-提炼方法”提取肿瘤信息基因_第3页
利用“融合-提炼方法”提取肿瘤信息基因_第4页
利用“融合-提炼方法”提取肿瘤信息基因_第5页
资源描述:

《利用“融合-提炼方法”提取肿瘤信息基因》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、利用“融合-提炼方法”提取肿瘤信息基因云南大学杨晓洁、赵留明、田丰摘要:本文基于2010年9月全国研究生数学建模竞赛A题附带的关于“22个正常人和40个结肠癌患者在2000个基因片段上的基因表达数据”,紧扣“肿瘤信息基因提取”这一主题,提出了一种“融合-提炼方法”,从数目庞大的基因中提炼出3个最显著的“信息基因”用于肿瘤的识别,并从统计假设检验和对真实样本数据的样本类别判定的角度,证明了该方法的有效性和科学性。具体说来,该方法从三个角度切入问题,逐层筛选,目标直指“搜索在正常人和结肠癌患者中表达水平差异较大的信息

2、基因”。首先,从基因与样本类别的相关性角度出发,采用单因子多变量方差分析法进行基因的重要性分析,剔除了那些对样本类别的决定没有贡献的基因。其次,从相似性角度出发,首次引入模糊数学中的算术平均贴近度,来衡量某个基因在正常人和结肠癌患者中表达水平的接近程度,在上一步的基础上剔除了接近程度很高的基因。值得注意的是,在这一部分的方法细节上,一方面创造性地构造出适合于本文研究问题的隶属度函数,并论证了该函数的合理性;另一方面通过“训练集轮换”的模拟研究方法证明了用算术平均贴近度提取重要基因的稳定性,即从经验上证明了该方法对

3、于样本的替换并不敏感。再次,从因果关系的角度出发,又在上一步的基础上采用Logistic回归分类模型提炼出与肿瘤识别有关的最显著的“信息基因”。鉴于该方法具有综合性和多样性,并层层推进,本文命名这一提取“信息基因”的过程为“融合-提炼方法”。最后,本文采用logistic回归方程分类预测法和Fisher线性判别准则来评价所提取的3个“信息基因”对于肿瘤的识别效果,两种方法均具有较高的正确识别率且识别结果大致相同,一方面说明所提取的3个“信息基因”对于不同性质的样本分类方法具有相当的稳定性和普适性;另一方面,两种方

4、法在进行样本分类时两相校正,所得结论也较为可靠。关键字:肿瘤信息基因提取融合-提炼方法单因子多变量方法差分析算术平均贴近度Logistic回归Fisher线性判别准则2目录1.问题的提出11.1研究背景11.2研究现状11.3本文的研究思路22.数据描述32.1数据来源32.2数据整理32.3建模数据的说明43.模型的假设54.基因的重要性分析模型54.1变量重要性分析的一般方法54.2基因的重要性分析模型54.3基因的重要性分析结果55.算术平均贴近度筛选模型65.1算术平均贴近度简介65.1.1模糊子集与隶属

5、度函数65.1.2算术平均贴近度75.2本文自定义的隶属度函数85.2.1基因特性的分类85.2.2自定义的隶属度函数85.3算术平均贴近度的计算125.4利用算术平均贴近度计算值剔除无关基因136.Logistic回归分类模型136.1Logistic回归模型的建立146.1.1Logistic回归模型的估计及检验146.1.2Logistic回归模型提练的“信息基因”的重要程度分析166.2Logistic回归模型的分类效果167.“信息基因”的平均差异性的假设检验178.Fisher判别准则的识别效果19F

6、isher判别准则分类效果209.“融合-提炼方法”的评价219.1“融合-提炼方法”的优点219.2“融合-提炼方法”的缺点21参考文献22附录23附录一matlab程序2321.问题的提出1.1研究背景随着大规模基因表达谱技术(譬如DNA微阵列技术)的发展,人体一些组织的基因表达的正常范围已经被获悉,这就使得与之相应的某些疾病(主要是肿瘤)的基因表达分布图有了参考的依据。如果可以利用基因表达分布图准确地进行肿瘤的识别,将对诊断和治疗肿瘤都具有深远意义。由于每一种肿瘤都有其基因的特征表达谱,从DNA芯片所测量的

7、成千上万个基因中,找出决定样本类别(即属于正常人还是结肠癌患者)的一组基因“标签”,可称为“信息基因”(informativegenes)是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也能为抗癌药物的研制提供捷径。通常情况下,在基因表达谱中,一些基因的表达水平在所有样本中都非常接近。例如,不少基因在急性白血病亚型(ALL,AML)两个类别中的分布无论其均值还是方差均无明显差别,可以认为这些基因与样本类别无关,没有对样本类型的判别提供有用信息,反而增加“信息基因”搜索的难度。因此,要挑选一组能决定样

8、本来别的“信息基因”,首先必须对“无关基因”进行剔除,进而缩小搜索肿瘤基因的范围。1.2研究现状1999年《Science》发表了Golub等针对急性白血病亚型识别与信息基因选取问题的研究结果。Golub等以“信噪比”(Signaltonoiseratio)指标作为衡量基因对样本分类贡献大小的量度,采用加权投票法进行亚型的识别,仅根据72个样本就从7129个基因中选出了5

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。