肿瘤基因图谱信息提取和分类方法研究

肿瘤基因图谱信息提取和分类方法研究

ID:16160323

大小:1.50 MB

页数:32页

时间:2018-08-08

肿瘤基因图谱信息提取和分类方法研究_第1页
肿瘤基因图谱信息提取和分类方法研究_第2页
肿瘤基因图谱信息提取和分类方法研究_第3页
肿瘤基因图谱信息提取和分类方法研究_第4页
肿瘤基因图谱信息提取和分类方法研究_第5页
资源描述:

《肿瘤基因图谱信息提取和分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、全国第七届研究生数学建模竞赛题目肿瘤基因图谱信息提取和分类方法研究摘要:本文讨论了肿瘤基因图谱信息提取方法,主要工作是提取结肠癌基因表达谱的特征基因信息,并利用神经网络进行分类识别。对于问题一、二,本文采用了一种致癌基因信息提取与分类方法,该方法主要由四步构成:(1)利用Bhattacharyya距离法滤除无关基因;(2)采用两两冗余分析,剔除强相关冗余基因;同时,采用主成分分析方法对所选择的基因样本数据进行降维处理,得到样本的主成分量;(3)对特征提取后的基因数据采用四种神经网络(BP神经网络及三种径向基神经网络)进行分类学习,训

2、练获得分类网络模型;(4)采用获得的分类网络模型对测试肿瘤样本进行分类,并采用留一交叉检验法和独立检验法评估四种神经网络分类器性能。结果表明:本文所采用的特征提取方法能有效提出与肿瘤相关的信息基因,选取的特征基因子集包含9个基因,且采用概率神经网络(PNN)的分类识别准确率(77.27%)最高。对于问题三,采用小波去噪方法消除基因信息采集过程中的随机误差。为最大限度地消除噪声并保证原始数据信息损失最小,本文分别采用db3、db5、sym8、haar等不同小波基进行去噪,通过对概率神经网络分类的结果比较可知:选择haar小波基对所有数

3、据进行消噪,提取到的特征信息基因更为有效。在独立测试实验中,概率神经网络对22个样本数据的识别准确率为100%。对于问题四,本文采用信息融合的方法,利用加权评分法建立了融入生理学确定信息基因的多信源信息融合模型。通过对PNN-WG模型求解,验证了提出融合模型可将原有概率神经网络的分类准确性从77.27%提高到86.36%,达到了多源信息融合的目的。最后,评价了本文模型和算法的优点,并给出了进一步研究的方向。关键词:肿瘤基因;特征提取;分类识别;小波去噪;信息融合32一、问题重述癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生

4、的突变,即基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分布(即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。DNA微阵列(DNAmicroarray),也叫基因芯片,是最近数年发展起来的一种能快速、高效检测DNA片段序列、基因表达水平的新技术。它将数目从几百个到上百万个不等的称之为探针的核苷酸序列固定在小的玻璃或硅片等固体基片或膜上,该固定有探针的基片就称之为DNA微阵列。根据核苷酸分子在形成双链时遵循碱基互补原则,就可以

5、检测出样本中与探针阵列中互补的核苷酸片段,从而得到样本中关于基因表达的信息,这就是基因表达谱,因此基因表达谱可以用一个矩阵或一个向量来表示,矩阵或向量元素的数值大小即该基因的表达水平。随着大规模基因表达谱技术的发展,人类各种组织的正常的基因表达已经获得,各类病人的基因表达分布图都有了参考的基准,因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。从DNA芯片所测量的成千上万个基因中,找出决定样本类别的一组基因“标签”,即“信息基因”是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在。通常由于基因数目很大,在判断

6、肿瘤基因标签的过程中,需要剔除掉大量“无关基因”,从而大大缩小需要搜索的致癌基因范围。事实上,在基因表达谱中,一些基因的表达水平在所有样本中都非常接近。因此,必须对这些“无关基因”进行剔除。但信噪比肯定不是衡量基因对样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果,在确定某种肿瘤的基因标签时,应该设法充分利用其他有价值的信息。有专家认为在基因分类研究中忽略基因低水平表达、差异不大的表达的倾向应该被纠正,与临床问题相关的主要生理学信息应该融合到基因分类研究中。面对提取基因图谱信息这样前沿性课

7、题,以下几点是解决前沿性课题的有价值的工作。(1)由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少。对于给定的数据,如何从上述观点出发,选择最好的分类因素?(2)相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的学习问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有当这种特征较少时,分类的效果才更好些。对于给定的结肠癌数据如何从分类的角度确定相应的基因“标签”?(3)基因表达谱中不可避免地含有噪声,有的噪声强度

8、甚至较大,对含有噪声的基因表达谱提取信息时会产生偏差。通过建立噪声模型,分析给定数据中的噪声能否对确定基因标签产生有利的影响?(4)在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切,建立融入了这些有助于诊断肿瘤信息的确定基因

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。