数学建模论文-癌症基因与正常基因的区别

数学建模论文-癌症基因与正常基因的区别

ID:6789148

大小:272.00 KB

页数:16页

时间:2018-01-25

数学建模论文-癌症基因与正常基因的区别_第1页
数学建模论文-癌症基因与正常基因的区别_第2页
数学建模论文-癌症基因与正常基因的区别_第3页
数学建模论文-癌症基因与正常基因的区别_第4页
数学建模论文-癌症基因与正常基因的区别_第5页
资源描述:

《数学建模论文-癌症基因与正常基因的区别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、癌症基因与正常基因的区别摘要随着人类社会的发展,各种癌症的发病率不断增加。癌症成为影响人类健康的第一大杀手。由科学研究可知其主要源头为基因,为此我们针对癌症样本与正常样本在基因表达上的区别,以及癌症样本具体分类的问题,在合理科学的假设下对题目中给出的40个已知基因表达信息样本的数据用进行处理建立神经网络数学模型,从而有效的实现对未知样本的预测以及对预测癌症样本进行合理的分类,并最终以可视化的方法展现出来。针对问题一:利用附件前40个已知的基因表达信息样本,对其利用神经网络,主成分分析法,遗传算法对数据进行分析与对比

2、并建立相应的数学模型,从而得到其癌症人基因与正常人基因的特征值,利用其与未知样本比较即可得到未知样本的基因信息。针对问题二:针对癌症基因中可能出现的子类问题,我们主要采用动态模糊聚类分析的方法对问题求解。首先对20个癌症基因样本利用相关系数法求得其相关性。而后抓住主要矛盾以最低程度降低同组样本相似性为代价求得对其分类的最佳阈值,从而将前20个癌症样本最佳分为4个子类。最后用神经网络对已分类的癌症样本进行训练,通过可视化的方法呈现出我们的分类结果。关键词:模糊聚类分析神经网络可视化主成分分析法161.问题重述癌症作为

3、当今人类的第一大杀手,其主要特点是破坏性强,难预防。基因作为遗传控制因子对癌症的发病率有着最直接的联系。为此我们需利用题目附件中给出的60个人114个基因表达水平的样本解决以下两个问题。在附件中前20个是癌症病人的基因表达水平的样本(其中还可能有子类),其后的是20个正常人的基因表达信息样本,其余的20个是待检测的样本(未知它们是否正常)。问题一:试设法找出描述癌症与正常样本在基因表达水平上的区别,建立数学模型,及识别方法,去预测待检测样本是癌症还是正常样本.问题二:设计图示(可视化)方法,使得在你的数学模型下,尽

4、量清楚地表现癌症与正常样本在基因表达水平上的区别,以及癌症样本中是否有子类.2.问题分析对于问题一:根据附件中前40个已知基因信息样本使用作图工具箱进行分析,将所有样本的基因信息反映在图表上,由此我们发现每个基因都有着其一定的正常表达范围。由于基因种类太多,生物网络过于复杂,为了得到精确的标准,我们将生物技术和计算机技术有效的结合起来对已知信息利用基于遗传算法的神经网络数理化进行分析处理从而建立相对应的数学模型,首先用-1,1对40个已知样本量化使数据简化。由于每个样本中包括都由114个基因,所包含的信息太多。所以

5、我们需要用到主成分分析法对所有已知数据处理找出其特征值—致癌因子,而后可通过神经网络随机挑选出的34个训练样本对所建立神经网络进行训练,用其余6个已知样本对网络测试检验。对于问题二:基于问题一所建立的数学模型,将待测的样本分为正常和癌症基因样本。但对于将癌症基因的进一步分类,则需要运用动态模糊矩阵,同时,还要找出阈值的合理求解方法,从而得到最佳的答案。最后,利用可视化的方法将样本的分组具体描绘出来。3.模型的假设与符号说明3.1模型的假设假设一:基因样本的信息准确无误,真实可信,不含特殊样本。假设二:每个样本间相互

6、独立,每个基因间相互独立。假设三:样本的基因表达方式一致,由统一计算方法所得并可直接参与计算。假设四:样本中只有正常人与癌症病人的基因区别,忽略其他遗传病症。假设五:癌症病人的主要致癌基因均在这114个中。假设六:基因样本的数据中纵向表达一一对应。假设七:癌症患者由致癌因子直接导致,不考虑其他客观因素的影响。假设八:在研究过程中,114个基因不再发生变化影响研究结果。3.2符号说明:癌症基因样本:第个样本:样本与相似程度16:模糊等价矩阵:特征值:相邻阈值之比:第组样本相似度:正常基因样本:第个样本所包含的第个基因

7、信息:模糊相似矩阵:阈值:样本所分组数:样本组数之比:神经网络目标值4.模型的准备本文针对癌症样本与正常样本在基因表达上的不同,利用作图工具箱(程序见附录一)使基因表达信息反映在图表上。观察以下图像可以发现每个正常基因都是有一定的正常表达范围的,超过这个范围的基因可以确定为癌症基因。但是通过作图模型做出的图表只能对样本进行粗略的判断,不能得到精准的结果,所以我们接下来需要利用合理的数理分析对数据进行再次处理建立有效的数学模型来区分癌症与正常的基因。如图一所示:图1165.模型的建立与求解5.1问题一的解决:第一步:

8、针对问题的特殊性,我们主要选择BP神经网络对其求解。根据题中所给60个人的基因表达,对前40个人已知基因进行量化:将前40个正常人与癌症患者具体量化为:=则目标值为:T=[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。