提取结肠癌基因图谱信息方法的研究

提取结肠癌基因图谱信息方法的研究

ID:16231033

大小:3.65 MB

页数:23页

时间:2018-08-08

提取结肠癌基因图谱信息方法的研究_第1页
提取结肠癌基因图谱信息方法的研究_第2页
提取结肠癌基因图谱信息方法的研究_第3页
提取结肠癌基因图谱信息方法的研究_第4页
提取结肠癌基因图谱信息方法的研究_第5页
资源描述:

《提取结肠癌基因图谱信息方法的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、全国第七届研究生数学建模竞赛题目提取结肠癌基因图谱信息方法的研究摘要:本研究在分析基因表达谱数据特征的基础上,研究有效提取基因图谱信息的方法。依据给定的数据,在确定结肠癌的特征基因的基础上,建立判断肿瘤基因标签的数学模型。首先,依据给定的数据,采用“信噪比”和基因的Bhattacharyya距离等方法剔除无关基因,得到134个信息基因。然后,运用BP神经网络和二分类Logistic回归两种方法筛选特征基因。通过扩大筛选范围,比较筛选结果,发现:BP神经网络法得到的筛选结果稳定性较差,但二分类Logisti

2、c回归法得到的筛选结果保持一致。最终依据二分类Logistic回归模型得到3个特征基因——G493、G1346、G1582。最后建立融入所得3个特征基因信息的二分类Logistic回归模型:该模型各参数均能通过假设检验。将G493、G1346、G1582三个基因数据代入该模型,当时,可以判断为正常,准确率是95.5%;当时,可以判断为不正常,准确率是95.0%。依据给定的62个样本,该模型正确识别率达到95.2%。该模型基本解决了依据基因特征数据判定是否患癌症的难题。另外,本文中也讨论了利用噪声模型分析噪

3、声对确定基因标签的作用,认为噪声对确定基因标签有一定的有利作用。关键词:基因;特征基因;信噪比;神经网络模型;二分类Logistic回归模型参赛密码(由组委会填写)参赛队号10856007队员姓名潘黎玫孙琳琳陈曼曼中山大学承办23提取结肠癌基因图谱信息方法的研究1问题描述癌症是全世界首要的死因之一。癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生的突变,所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。基因芯片,是最近数年发展起来的一种能快速、高效检测DNA片段序列、基因表达水平的新技术,

4、可以通过基因芯片获取样本中关于基因表达的信息,即得到基因表达谱。基因表达谱可以用一个矩阵或一个向量来表示,矩阵或向量元素的数值大小即该基因的表达水平。随着大规模基因表达谱技术的发展,人类各种组织的正常的基因表达已经获得,各类病人的基因表达分布图都有了参考的基准,因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。如果可以在分子水平上利用基因表达分布图准确地进行肿瘤亚型的识别,对诊断和治疗肿瘤具有重要意义。因为每一种肿瘤都有其基因的特征表达谱。从DNA芯片所测量的成千上万个基因中,找出决定样

5、本类别的一组基因“标签”,即“信息基因”是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径。通常由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无关基因”,从而大大缩小需要搜索的致癌基因范围。事实上,在基因表达谱中,一些基因的表达水平在所有样本中都非常接近。例如,不少基因在急性白血病亚型(ALL,AML)两个类别中的分布无论其均值还是方差均无明显差别,可以认为这些基因与样本类别无关,没有对样本类型的判别提供有用信息,反而增加信息基因搜索的计算复杂度。因

6、此,必须对这些“无关基因”进行剔除。面对有效提取基因图谱信息这样前沿性课题,需要研究解决下列问题:1、由于基因间相关性很强,如何选择最好的分类因素,从给定数据中找出与特定肿瘤相关的基因?2、样本相对基因数较少,为避免小样本学习问题,根据结肠癌数据如何减少基因特征以确定相应基因?3、噪声对基因表达谱的影响不同,建立噪声模型分析给定数据中噪声能否对确定基因标签产生有利影响?4、肿瘤研究中通常已知若干基因和某种肿瘤有密切关系,如何利用确定基因建立诊断肿瘤的模型?2模型假设1、某种特定的肿瘤的致癌基因之间具有很大

7、的相关性。2、在基因谱中存在无关基因,且影响肿瘤的基因是少数的几个。3、噪声对确定基因标签产生有利影响。4、在二分类变量(Y)中正常人群分类为1,癌症患者分类为0,基因是自(解释)变量。233问题分析本题主要是研究有效提取基因图谱信息的方法,依据给定的数据,确定结肠癌的特征基因,建立可以判断肿瘤基因标签的数学模型。主要研究:1、依据给定的数据,剔除无关基因;2、从分类角度确定相应的基因“标签”;3、分析给定数据中的噪声对确定基因的影响;4、建立融入有助于诊断肿瘤信息的确定基因“标签”的数学模型。图1提取特

8、征基因的流程图4模型建立与求解4.1数据描述本试验采用给定的结肠癌数据。该数据集中包含62个样本,每个样本均含有2000个基因的表达数据。其中22个样本被诊断为正常样本(Normal),40个被诊断为肿瘤样本(Cancer)。样本集的数据组织方式如表1所示。第一行为样本标号(如:S1,S2,…);第二行为样本所属类别;第一列为基因标号;第二、三列为基因分别在EST和GenBank两个数据库中的代码;第四列为基因所在区域;第五列

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。