欢迎来到天天文库
浏览记录
ID:51990539
大小:1014.00 KB
页数:33页
时间:2020-03-21
《基于基因表达谱的肿瘤识别方法的研究.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、全国第七届研老生数学建棋丸界题0基于基因表达谱的肿瘤识别方法的研究摘要:本文基于基因表达谱讨论了肿瘤识别方法的问题。首先建立分类数学模型对样本分类识别:即在对原始数据进行处理的基础上,利用主成分分析的方法进行降维处理;并将提取的主成分数据输入支持向量机模型训练学习,从而实现对样本的有效分类。其屮模型对样本正确分类识别率接近90%,并且对模型进行敏感性和稳定性检验测试。其次,通过Relief算法对基因进行排序和筛选,在此基础上运用留一交叉检验法确定了一组“基因标签”,并利用随机重复试验检验了“基因标签”的样本分类能力。在丄述模型运算分析结果的基础上分析了影响肿瘤识别效果的
2、噪声来源,对数据屮存在的噪声样本和重复数据进行降噪,建立了噪声模型,进而得到了一组新的基因“标签”,从而使肿瘤识别精度提高到了92.65%;最后融入临床牛物学信息,综合运用支持向量机等数学理论建立了肿瘤诊断识别的数学模型,肿瘤识别率提高到了99.8%。关键词:基因表达谱肿瘤支持向量机主成分分析Relief算法参赛密码(由组委会填題)参赛队号10224003队员姓名杨振华刘爱兰邢秉昆屮山大学承办一、问题重述癌症起源于止常组织在物理或化学致癌物的诱导下基因组发牛的突变,即基因在结构丄发牛碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分布。所以探讨基因分布的改变与癌症
3、发牛之问的关系具有深远的意义。从DNA芯片所测量的成千上万个基因中,找岀决定样本类别的一组基因“标签”取岀“信息基因”是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径。下面我们参考基因表达谱及肿瘤识别问题方面的研究成果,利用附件所给数据并结合相关资料,就提取基因图谱信息方法研究如下问题:1、由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数H很少。对于给定的数据,如何从丄述观点出发,选择最好的分类因素?2、相对于基因数F1,样木往往很小,
4、如果直接用于分类会造成小样木的学习问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有当这种特征较少时,分类的效果才更好些。对于给定的结肠癌数据如何从分类的角度确定札I应的基因“标签”?3、基因表达谱屮不可避免地含有噪声(见1999年Golub在《Science》发表的文章),有的噪声强度甚至较大,对含有噪声的基因表达谱提取信息吋会产牛偏差。通过建立噪声模型,分析给定数据屮的噪声能否对确定基因标签产牛有利的影响?4、在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切,建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的数学模型。比如临床有下而的牛理学
5、信息:大约90%结肠癌在早期有5号染色体长臂APC基因的失活,而只有40%〜50%的ms相关基因突变。二、问题分析2.1寻找与肿瘤相关的突变基因的分类因索我们认为“分类因素”可理解为由基因的某种组合得到的潜在因素。针对这一问题,我们设计了一种有效的算法作为样木分类识别的依据。具体内容如下:首先利用修正后的信噪比公式对原始数据屮的无关基因进行剔除,同时对保留下來的基因进行主成分分析,既可以实现有效的降维,同吋便于计算;然后引入支持向量机分类器,对提取的主成分进行学习训练,得到基于支持向量机的分类模型。在此基础上,我们对算法进行了敏感性检验和稳定性检验。2・2从分类的角度确
6、定基因“标签”相对于基因个数来说62个样本非常小,如果直接用于分类会造成小样本的学习问题。我们用Relief算法为每个基因赋予一个权重,然后设定相应的阈值,高于这个阈值的基因被留下;然后用留一交叉检验法来检验我们设定的阈值的合理性,通过检验不断地调整阈值,最终确定哪些基因被留下,而这些基因使是我们分类所依据的基因“标签”。2.3基因表达谱屮噪声模型的建立基因表达谱屮不可避免地含有噪声,对含有噪声的基因表达谱提取信息会产牛偏差。为了解决这个问题,我们分析发现GenbankAccname'I1含有存在重复数据的基因,运用方差分析来对这种基因的normal样本和cancer样
7、本分别进行显著性检验,发现该种基因在同类样本间存在显著差杲,进而推断其显著性差杲并不直接作用于样本的分类,应予以剔除。同吋,在对第二问屮得到的“基因标签”的检验过程屮,发现来源于样本的噪声,故对这些样本进行去噪处理。最后,应用第二问的模型对去噪后的数据重新进行运算,得到新的“基因标签”并对其进行检验。2.4融入临床信息的诊断肿瘤确定基因标签的数学模型的建立在确定某种肿瘤的基因标签吋如能融入与临床问题相关的主要牛理学信息,也许可以纠正现有研究屮基因低水平表达、差异不大的表达被忽略的倾向。我们利用问题三屮经过降噪处理后的样本数据,利用最终筛选
此文档下载收益归作者所有