欢迎来到天天文库
浏览记录
ID:10316225
大小:53.50 KB
页数:4页
时间:2018-07-06
《分类树中crt算法与判别分析的比较及其医学应用 》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、分类树中CRT算法与判别分析的比较及其医学应用【摘要】 目的:探讨分类树中CRT算法和判别分析在数据分析应用中的区别。方法:首先介绍模型的基本原理,据此对方法间的优缺点进行比较,然后采用实例进行分析介绍,并报告模型的树型图,10折交叉验证的预测准确率。结果:CRT算法是非参数、非线性的,对变量不同属性的适应是非常灵活地;CRT在构造树模型时是单变量拆分和递归的,故能够明显细分危险因素。结论:CRT算法和判别分析模型各有优势,根据数据特点及专业背景合理分析与解释,将能保证分析的正确性和完善性。【关键词】CRT算法线性判别分析交叉验证错分率
2、 在分类方法中传统的判别分析是最常用的,其核心思想是,先根据某些类别归属已知的对象建立判别函数,再将要进行分类的相应指标值带入此判别函数,根据所得函数值判断该对象所应归入的类别。对于常用的线性判别分析,如Bayes判别、典则判别、逐步判别分析要求原始变量在各组内具有近似正态分布,同时具有相同的协方差矩阵等条件,而实际中很多数据不能满足其算法条件,使其统计结果误差偏大。再者对于二次判别函数和非参数判别分析,由于其计算复杂,较少有教科书涉及,使其在应用中受到限制。而分类树CRT算法作为数据挖掘中重要的分析方法,由于其算法是非参数,非线性的,加之
3、其判别准则以图形化结果呈现,结果易于表述与解释,该法可以作为传统判别分析的补充,因而受到统计分析人员的青睐。本研究将两者作以初步比较与探讨,以便为数据分析提供理论依据。 1原理与方法 CRT算法简介〔1~3〕:分类与回归树CART(ClassificationandRegressionTrees)由最早由Breiman等人于1984提出,Ripley在1996年进行了修改。变量分为预测变量(predictvariable)和应变量(dependentvariable),该模型使用二叉树将预测空间递归地划分为若干子集,而树中的叶节点对应着
4、划分的不同区域,划分是由与每个内部节点相关的分支规则(SplittingRules)来确定的,通过从树根到叶节点移动,一个预测样本被赋予一个惟一的叶节点,应变量在该节点上的条件分布也即被确定。CRT算法包含3部分内容:分枝变量及拆分点的选择、树的修剪和模型树的评估。 1.1分枝变量及拆分点的选择 分类树理想的结果是使得树中每一个叶节点要么是纯节点(节点内部样本的应变量属于同一个类),要么很小(节点内部所含样本个数小于事先给定的n值)。在从众多的预测变量中选择这个最佳分组变量时,CRT算法采用基尼系数来进行评判。基尼系数越小,表明该节点越
5、纯,则该预测变量就是当前属性的最优分割点。对基尼系数的介绍可参考有关文献。在对样本集进行分割时,分割规则采用二叉表示形式,算法从根结点开始分割,递归地对每个结点重复进行。 1.2树的修剪(Pruning) 由于数据中有噪声和孤立点,许多分枝反映的是训练数据中的异常。CRT采取的是后剪枝(postpruning)方法,剪去不可靠的分枝,以提高树正确的分类能力。CRT采用CART系统的成本-复杂度最小(Minimalcost-plexitypruning)原则进行删减。 1.3评估树模型 CRT法采用测试样本评估(TestSampleE
6、stimates)、交叉验证评估(Cross-validationEstimates)或V-折交叉验证(V-foldcross-validation),使得最终的模型树分类误判率低且树模型简单。对于最终模型树大小的选择要结合资料的专业背景及统计结果来选择。 2CRT与判别分析比较〔4~6〕 2.1CRT方法是非参数非线性的 线性判别分析要求原始变量在各组内具有近似正态分布,同时具有相同的协方差矩阵等条件,而现实中很多数据不能满足其算法条件,使其统计结果误差偏大。再者对于二次判别函数和非参数判别分析计算复杂,即使SAS、SPSS等大型统
7、计软件对判别分析呈二次判别方程时,也没有直接输出方程的结果。故由于其操作和结果的解释较为复杂,使其推广应用受到一定的限制,所以分类树方法可以进行弥补。 2.2应变量属性的灵活性 CRT分类树法中应变量即可以是连续性数值变量(continuouspredictors),也可为分类变量(categorical)。如果应变量为连续性变量,CRT树为回归树,如果应变量为分类变量时,CRT为分类树。而判别分析要求应变量为分类属性。 2.3预测变量属性的灵活性 分类树中的预测变量可以是连续性数值变量,也可为分类变量(categorical)
8、。线性判别分析要求预测变量为计量(intervalscale)。当在应用判别分析时预测变量为分类属性时,常将其设置为哑变量的形式参与计算,其实质在降低其正态性的要求。而分类树方法
此文档下载收益归作者所有