分类树中crt算法与判别分析的比较及其医学应用

分类树中crt算法与判别分析的比较及其医学应用

ID:26053409

大小:53.00 KB

页数:6页

时间:2018-11-24

分类树中crt算法与判别分析的比较及其医学应用_第1页
分类树中crt算法与判别分析的比较及其医学应用_第2页
分类树中crt算法与判别分析的比较及其医学应用_第3页
分类树中crt算法与判别分析的比较及其医学应用_第4页
分类树中crt算法与判别分析的比较及其医学应用_第5页
资源描述:

《分类树中crt算法与判别分析的比较及其医学应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类树中CRT算法与判别分析的比较及其医学应用【摘要】  目的:探讨分类树中CRT算法和判别分析在数据分析应用中的区别。方法:首先介绍模型的基本原理,据此对方法间的优缺点进行比较,然后采用实例进行分析介绍,并报告模型的树型图,10折交叉验证的预测准确率。结果:CRT算法是非参数、非线性的,对变量不同属性的适应是非常灵活地;CRT在构造树模型时是单变量拆分和递归的,故能够明显细分危险因素。结论:CRT算法和判别分析模型各有优势,根据数据特点及专业背景合理分析与解释,将能保证分析的正确性和完善性。【关键词】CRT算法线性

2、判别分析交叉验证错分率  在分类方法中传统的判别分析是最常用的,其核心思想是,先根据某些类别归属已知的对象建立判别函数,再将要进行分类的相应指标值带入此判别函数,根据所得函数值判断该对象所应归入的类别。对于常用的线性判别分析,如Bayes判别、典则判别、逐步判别分析要求原始变量在各组内具有近似正态分布,同时具有相同的协方差矩阵等条件,而实际中很多数据不能满足其算法条件,使其统计结果误差偏大。再者对于二次判别函数和非参数判别分析,由于其计算复杂,较少有教科书涉及,使其在应用中受到限制。而分类树CRT算法作为数据挖掘中重

3、要的分析方法,由于其算法是非参数,非线性的,加之其判别准则以图形化结果呈现,结果易于表述与解释,该法可以作为传统判别分析的补充,因而受到统计分析人员的青睐。本研究将两者作以初步比较与探讨,以便为数据分析提供理论依据。  1原理与方法  CRT算法简介[1~3]:分类与回归树CART(ClassificationandRegressionTrees)由最早由BrEiman等人于1984提出,Ripley在1996年进行了修改。变量分为预测变量(predictvariable)和应变量(dependentvariable

4、),该模型使用二叉树将预测空间递归地划分为若干子集,而树中的叶节点对应着划分的不同区域,划分是由与每个内部节点相关的分支规则(SplittingRules)来确定的,通过从树根到叶节点移动,一个预测样本被赋予一个惟一的叶节点,应变量在该节点上的条件分布也即被确定。CRT算法包含3部分内容:分枝变量及拆分点的选择、树的修剪和模型树的评估。  1.1分枝变量及拆分点的选择  分类树理想的结果是使得树中每一个叶节点要么是纯节点(节点内部样本的应变量属于同一个类),要么很小(节点内部所含样本个数小于事先给定的n值)。在从众多

5、的预测变量中选择这个最佳分组变量时,CRT算法采用基尼系数来进行评判。基尼系数越小,表明该节点越纯,则该预测变量就是当前属性的最优分割点。对基尼系数的介绍可参考有关  3分析实例  通过下面的实例数据来说明CRT方法的应用,数据来源于我校附属医院,采用SPSS公司Ans)、平扫密度、颈部淋巴结肿大与否、边界状态(清、不清)、CT增强幅度。将良、恶性肿瘤属性作为应变量,其余属性作为预测变量,其中年龄、肿瘤的最大径、增强幅度为连续性计量数据,其余为分类计数数据。由于本例样本量较小,采用10折交叉验证对模型进行评估其误差率

6、。此处简要报告CRT方法的主要分析结果,表1为CRT模型的预测分类与实际分类结果,图1为树形图。该决策树图为采用CRT方法进行的分类结果,由模型树图可得出以下结论:恶性肿瘤大多伴有淋巴结肿大、肿瘤直径大、边界不清、CT增强幅度大再检测的特征。  表1CRT模型的预测分类与实际分类结果(略)  经10折交叉验证,估计误差(RiskEstimate)及其标准误(SEofRiskEstimate)分别为0.918、0.029,模型的正确率近91%。  将该资料采用Bayes线性判别分析,得判别函数为:  Z1=-37.00

7、9+27.635X1+8.501X2+1.842X3+0.226X4  Z2=-38.286+20.648X1+12.823X2+2.632X3+0.339X4  公式中Z1、Z2分别代表良、恶性;X1为是否伴有淋巴结肿大,X2边界是否清晰,X3肿瘤最大径,X4为CT的增强幅度。采用交叉验证模型的准确率为89.2%。由于本资料数据量小,变量间的关系简单,两种模型的分析结果基本一致。相比于判别分析,CRT方法的树型分类结果直观且宜于解释,由于分类树算法仅就节点处自身的数据进行分析,故在进行"危险因素"分析时,分类树结果

8、更能强调危险因素,故从根节点到叶节点可明显区分恶性肿瘤与良性肿瘤的特征,即恶性肿瘤大多伴有淋巴结肿大、肿瘤直径大、边界不清,CT增强幅度大一些时可清晰确诊。该模型对实际的临床诊断有一定的指导意义。  图1腮腺良恶性肿瘤临床体症的CRT模型树(略)  4讨论  目前数据挖掘中有关分类树的算法非常多,SPSS13.0及Ansp;RT、CHAID和Q

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。