欢迎来到天天文库
浏览记录
ID:29984192
大小:748.00 KB
页数:33页
时间:2018-12-25
《肿瘤诊断问题五组》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、肿瘤诊断判定问题摘要本文是关于肿瘤诊断的判定问题。通过对题目所给数据的收集整理,我们建立了fisher模型对问题分别进行求解。对于问题一:首先根据题目所给数据通过fisher模型,初步建立函数,得到的线性函数。通过对数据结果的分析,我们发现误判组的特殊性,于是决定加大正确组数的权重对函数进行修正,得到准确性提高后的修正表达式。考虑到题目所给数据的局限性,决定扩大样本的数据量,通过仿真近四万组数据,使判别表达式更具代表性,而且准确率也进一步的提高。三次修正表达式分别见式(4.1)(4.2)(4.3),准确率分别为:93.75%,96.
2、25%,98.7%。对于问题二:我们将所需判断数据代入问题一中最后表达式,知恶性肿瘤的患者有9组,良性肿瘤患者有11组。详细情况见(表5.2)对于问题三:我们通过逐步回归的思想对九个指标一一进行剔除,每次剔除一个指标都用带有权重的数据来确立精简函数表达式。然后进行显著性检验,当剔除到函数出现明显的误判时剔除终止。经过五轮的逐步剔除,我们得到了减少检测指标后的函数表达式,此时我们需要检测的指标分别为指标一乳腺肿瘤肿块的厚度、指标五单层上皮细胞的大小、指标六裸核、指标八正常的核仁。表达式为见式(5.1),其达到的准确率为96.25%。关
3、键词:Fisher权重计算机仿真代表性逐步回归1.问题重述全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。下面是某医院乳腺肿瘤患者的一组数据(见附录数据表),其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。本文需要解决的问题问题一、根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性”还是“恶
4、性”的方法,并检验你提出的方法的正确性。问题二、现有一组乳腺肿瘤患者的九个指标数据如下(见附录问题表2),请你按照你在问题一中提出的方法分别判别属于“良性”还是“恶性”问题三、试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性”乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。2.模型的假设与符号说明2.1模型的假设假设一:检验过程中各指标不会发生变异和突变;假设二:本文中所给的数据是正确的,合理的;假设三:腺肿瘤患者的肿瘤只有良性与恶性两种;假设四:本文中的仿真数据是
5、可靠的,合理的;2.2符号说明符号符号说明第个判别指标第个判别指标的系数判别函数的分界值显著性系数数据代入的函数值组内差样本离差阵组间差最大特征值3.问题分析本文是关于乳腺癌的判定问题。随着乳腺癌在女性疾病中的比例不断突出,如何根据各项指标判定乳腺肿瘤患者的肿瘤是良性还是恶性使我们亟待解决的问题。对于问题一,通过对图表的观察与处理,发现良性肿瘤与恶性肿瘤各指标的均值上存在的差值较大。这样寻找良恶性肿瘤的分界点成为了分析中的首要问题。我们引入一个判别函数,把各指标作为函数变量,选取部分题目所给数据,建立fisher模型,从而确定最终的
6、判别函数。再将剩下来的数据代入,通过比较代入函数值与判别函数值,验证判别函数的准确性。通过检验后,为了提高模型的准确率,我们进一步扩大正确组数据的权重,我们再选取一定数量的准确组重复代入原始数据,从而修正判别函数。其流程图如下图1:N开始选择一定量数据Fisher模型确立判别函数增大数据量回带输出函数将原数据与剩下数据进行检测,准确率是否理想?图一判别函数求解流程图由于之前所选数据范围比较狭窄,为了进一步说明建立模型所选数据的随机性和普遍性,我们以修正后的函数作为基础,通过计算机仿真模拟大量的数据组(其中2.9915万组良性,0.9
7、136万组恶性),再一次修正判别函数,这样修正的判别函数才真正具有随机性和普遍性。然后我们以题目所给数据作为检验数据,对这一次的判别函数再一次进行检验,最后通过验证目标函数的各项指标,对未知值进行求解。对于问题二,根据问题一中所求出的判别函数,我们将各个指标变量代入目标函数中,将其得出的函数值与判别值比较,从而得出最后这些组肿瘤数据哪些是良性,哪些是恶性。对于问题三,利用逐步回归的思想,对九个指标一一进行比较剔除,每一次剔除后对剩余的指标建立fisher模型,再检验指标减少后的模型的准确率以及F值的显著性,进而判断剔除值是否重要;只
8、要准确率以及F值的显著性中任意一个值变化过于剧烈,我们即认为这个数据比较重要,不予剔除或者剔除时采取交叉项以及平方项来减少这个指标造成的影响,当无法再剔除指标时,即认为剩下的指标均为主要指标。4问题一的解答4.1问题一模型的准备4.1
此文档下载收益归作者所有