欢迎来到天天文库
浏览记录
ID:21452289
大小:2.09 MB
页数:88页
时间:2018-10-22
《医学信息学论文:spss分类树应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、SPSSClassificationTrees分类树的应用深圳市医学信息中心罗春花内容基本概念快速入门知识拓展一、基本概念什么是分类树?对资料的要求用途如何确定变量的重要性、相互关系、交互作用分类树的优缺点分类树的运算法则1.什么是分类树?分类树产生一个基于树状的分类模型;它将研究对象分组,可以根据自变量预测因变量;是探索性和证实性分类分析的有效工具。2.对资料的要求:任何类型不要求解释变量Xi和结果变量Y具有某种特定的分布。允许不同数据类型的解释变量一起进入模型,可以使用不同数据类型的结果变量。传统方法对资料
2、的类型和分布有相对严格的规定(如多元线性回归);不易处理共线性问题和多水平变量之间复杂的交互作用(如logistic回归)。根据解释变量对结果变量进行分类和预测。识别影响因素间的交互作用3.用途1352名少年儿童肥胖症危险因素儿童肥胖症的高危人群和低危人群4.变量的重要性及变量间的相互关系如何确定?解释变量的重要性表现为该解释变量出现在树干的起始部位,或离起始部位很接近;另一方面,重要性还表现为同一解释变量多次在模型中出现。利用解释变量之间上下的关系分析解释变量间是否有可能存在交互作用。如果某些解释变量在单
3、因素分析时与结果变量之间无明显关联,而在模型中的某些局部有明显的效应,提示这些解释变量之间可能存在交互作用。5.分类树的优缺点是一种新的多因素分析方法,其结果直观、明了、易于解释,能有效处理缺失数据及变量之间的共线性,对资料分布无任何要求。只适合大样本资料。如果结果变量是连续性资料,样本含量可以小一些。如果结果变量是分类资料,样本含量要大。6.运算法则CHAID结果变量:分类资料(最常用)、计量或等级资料ExhaustiveCHAID:结果变量:分类资料(最常用)、计量或等级资料CRT结果变量:计量资料(最常用
4、)、分类或等级资料QUEST结果变量:仅用于分类资料二、快速入门QuickStart1352名少年儿童肥胖症危险因素银行对客户的信贷风险评估学生压力的影响因素分析(一)结果变量是分类资料例11352名少年儿童肥胖症危险因素性别:男、女年龄组:7-9岁,10-12岁,13-15岁,≥16岁胆固醇:<5.18(mmol/L),≥5.18(mmol/L)甘油三脂:<0.50(mmol/L),≥0.50(mmol/L)1.数据文件2.SPSS过程单击OK(不必在此定义变量属性)右键单击变量,定义变量类型定义数据测量类型
5、Measure计数资料:Nominal等级资料:Ordinal计量资料:Scale定义变量“性别”Nominal定义变量“年龄组”Ordinal定义变量“胆固醇”Nominal定义变量“甘油三脂”Nominal定义变量“肥胖症”Nominal肥胖症DependentVariable性别、年龄组、胆固醇、甘油三脂IndependentVariableGrowingMethodExhaustiveCHAID单击OK3.主要结果例2银行对客户的信贷风险评估Abankwantstocategorizec
6、reditapplicantsaccordingtowhetherornottheyrepresentareasonablecreditrisk.Basedonvariousfactors,includingtheknowncreditratingsofpastcustomers,youcanbuildamodeltopredictiffuturecustomersarelikelytodefaultontheirloans.数据文件2.ToObtainClassificationTreesAnalyzeCl
7、assifyTree...3.DefineVariableProperties定义数据测量类型Measure计数资料:Nominal等级资料:Ordinal计量资料:ScaleClassificationTreedialogboxDefineVariableProperties可对变量设置变量值标签可更改变量类型和设置变量值标签单击OK4.分类树主对话框(1)SelectingCategoriesGrowingMethod:CHAID(2)ForcethefirstvariableInfluencevar
8、iable一般不选择这2项(3)Validation是否需要交叉核实和分开2样本核实?默认:不需要(4)CriteriaGrowthLimits、CHAID、IntervalsTreeDepth:AutomaticParentNode:400;ChildNode:200CriteriaCHAID,默认拆分及合并的检验水准均定位0.05CriteriaIntervals,对连续性变
此文档下载收益归作者所有