基于决策树的医疗数据分析

基于决策树的医疗数据分析

ID:46420422

大小:63.50 KB

页数:5页

时间:2019-11-23

基于决策树的医疗数据分析_第1页
基于决策树的医疗数据分析_第2页
基于决策树的医疗数据分析_第3页
基于决策树的医疗数据分析_第4页
基于决策树的医疗数据分析_第5页
资源描述:

《基于决策树的医疗数据分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于决策树的医疗数据分析摘要:决策树算法从一组无规则、无次序的事例屮推理出分类规则,同样适用于医疗数据的挖掘。木文研究基于决策树的乳腺肿瘤医疗数据的分析和挖掘,提高癌症诊断的准确率。关键词:数据挖掘;决策树;乳腺癌诊断屮图分类号:TP399随着医疗数字化设备的快速发展,医疗数据库中包括了大量的非结构化的医学图像信息和病人的结构化信息,这些数据为医疗数据的挖掘和分析提供了丰富的信息资源。医疗数据的挖掘旨在从海量的医疗数据中提取出有效的模型、关联、规则、变化以及普遍的规律,加速医生决策诊断的过程和提高其决策诊断的准确度。决策树算法是应用最广的归纳推理算

2、法之一,对噪声数据有很好的健壮性,能够从医疗数据库中发现有价值的信息和知识。1决策树算法1.1决策树简介决策树方法是数据挖掘的重要方法之…,它是利用树形结构的特性来对数据进行分类的一种方法。决策树学习从一组无规则、无次丿了的事例中推理出有用的分类规则,是一种实例为基础的归纳学习算法。决策树首先利用训练数据集合生成一个测试函数,根据不同的权值建立树的分支,即叶子结点,在每个叶子节点下又建立层次结点和分支,如此重利生成决策树,然后对决策树进行剪树处理,最后把决策树转换成规则。决策树的最大优点是直观,以树状图的形式表现预测结果,而且这个结果可以进行解释。

3、决策树主要用于聚类和分类方面的应用。1.2常用决策树算法决策树算法的很多种,其中以ID3算法和C4.5算法应用最广泛。ID3算法根据信息理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,在每个非叶节点选取时,选择信息增益最大的属性作为测试属性。C4.5算法是对1D3算法的改进和扩展。C4.5算法用信息增益率來选择属性,克服了ID3算法在选择属性时偏向于选择取值多的属性的不足;当属性值空缺时,通过使用不同的修剪技术以避免树的过度拟合。2乳腺癌医疗数据决策分析2.1医疗数据选择乳腺癌是发病率较高一种恶性肿瘤。乳腺癌致死的主要原因在于恶性肿瘤细胞的

4、转移,淋巴结转移是主耍的途径之一,腋窝淋巴是乳腺癌发生转移的最早受累部位,转移的程度是乳腺癌诊断、治疗、放疗和化疗的主要参考依据,也是判断病情是否复发的因素。乳腺B超是乳腺癌早期检测的最可靠的方法。本文选释医院200名乳腺癌病人的在术前、术后、化疗前、化疗后、放疗前和放疗后的B超图像数据作为样本,对图像预处理及特征提取后,作为分类系统挖掘的输入。2.2模型评估变量决策树建模时,最重要的是选择评估变量。根据淋巴结与乳腺癌的关系,评估变量包括病人的基木特征信息(年龄和月经状况)、病情信息(肿瘤部位、病理类型等)、淋巴结信息(B超检查淋巴结状况、淋巴结转

5、移状况和术中发现的淋巴结状况)。各评估变量的定义如表1所示。表1模型评估变量定义表变量名含义值标识变量值AGE年龄W30030AGE>452YUEJING月经状况有0无1BUWET肿瘤部位整个1乳晕区2内上3内下4外上5外下6BLSORT病理类型粘液癌1小叶癌2管内癌早侵3LBJSTATUSB超检查淋巴结状况肿大0不肿大1LBTRANS淋巴结转移状况转移0不转移1SZSTATUS术中发现的淋巴结状况肿大0不肿大12.3决策树建模本文利用SAS软件的EnterpriseMiner模块提进彳亍决策树建模,步骤如下:(1)数据输入和抽样。将200名病人的

6、数据输入SAS软件,数据尽量完整。(2)数据特征探索。在进行模型建立时,主要是分析病人的医疗的数据特征,探索出样本数据中各属性变量的分布情况,在不同情况下的分布概率进行统计和分析。(3)数据集划分。由于在进行数据挖掘时,样本数据分为训练数据、验证数据和测试数据。本文将将样本数据分别分成训练集、测试集和验证集,它们在数量上所占的比例4:3:30(4)数据变量转换。根据表1将数据中的连续变量,转换成分散的变量。比如病人年龄是34岁,肿瘤部位在乳晕区,则它的AGE二1,BUWEI二2。(5)数据替换。虽然缺失值对决策树没有影响,但是为了提高分类结果的正确

7、性,还是借助数据替换模块,以均值代替间隔尺度变量的缺失值,以众数代替分类变量的缺失值。(6)决策树建模。SAS提供了决策树建模的力•法,它根据判定标准将评估变量变成不同层次有节点结构,以二叉树的形式显示出来。本文在进行挖掘分析时,分别设置树的最大深度为7,最小叶子观测数为6。2.4挖掘结果分析在分析的200名乳腺癌患者中,有76位确诊为腋窝淋巴结转移,124位没有发生腋窝淋巴结转移,转移的患者平均年龄在45岁。通过対结果的冋归分析发现,乳腺癌淋巴结转移与肿瘤的部位和腋窝淋巴结状况有明显的关系,B超检查腋窝淋巴结肿大者,容易发生乳腺癌的转移;肿瘤部位

8、在外上或外下的患者发生癌症转移的机率较高。3结束语利用决策树算法对乳腺癌淋巴结转移判别分类研究,能够为乳腺癌患者的病情控制

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。