欢迎来到天天文库
浏览记录
ID:19486027
大小:29.00 KB
页数:4页
时间:2018-10-02
《分类与回归树分析方法及其在医学研究中的应用.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、分类与回归树分析方法及其在医学研究中的应用作者:武艳华史宝林葛丽平【关键词】线性模型;logistic模型;比例危险度模型对多因子疾病如高血压、恶性肿瘤等的病因研究以及临床研究,目前多采用诸如线性回归、logistic回归、cox回归等模型进行危险因素的筛选;当变量间线性关系不成立时,选用线性回归模型显然不适宜;选用加入交互作用项或采用变量变换的logistic回归、cox回归等模型,此时交互作用项往往与危险因素存在共线性;而这些分析方法的一个共同缺陷是无法处理变量之间的共线性,对多水平变量间复杂的交互作用分析困难,因而所得分析结果有时出现难以解释的现象。分类与回归树(classi
2、ficationandregressiontrees,CART)[1~3],是一种既包含了多种多因素统计分析方法的优点,又能克服其缺陷的新的统计分析方法,有效的解决了多变量分析数据之间共线性的问题。1分类与回归树的结构与组成CART[4~8]是一种树型分析方法,由分类树(classificationtree)和回归树(regressiontree)两部分构成。在树型分析中,自变量x与反应变量y既可以是数值变量,也可以是分类变量;分类树用于反应变量y是分类变量的数据分析,回归树则用于反应变量y是数值变量的数据分析。CART分析结果可以图示直观表示,其结构类似一棵倒置的树,由主干和许多
3、分支组成。在树中有许多节点即树结(treenode),以椭圆形框和方形框表示,椭圆形框为中间结、长方形框为终止结(endnode)。每个树结中的数字为分析结果,在椭圆形框下方标有判别条件,树结间有实线连接。终止结内为病例数和对照数,其下方为患病率。模型的结果中给出学习集(先验概率)和检验集(后验概率)的具体判断情况。2分类与回归树的特点及其在医学研究中的应用CART可广泛应用于医学研究中,如医疗诊断与预后的判别、多因子疾病的病因研究以及自然科学领域的各种分类问题等。CART分析的目的是将研究人群通过设定的危险因素分成数个相对同质的亚人群。每个亚人群称为一个节点,整个人群称为根节点(
4、root)。分析方法可分为两步进行:即种树(growingtree)和剪枝(pruningandshrinking)。种树将全部观察对象分成同质的亚人群,以便每一亚人群都最大限度地同质。剪枝过程决定亚人群的最后确定,即将一个人群分成非常小的多个亚人群。4在临床诊断中,目前诊断疾病主要依据疾病的临床表型,以此为依据诊断患某种疾病的一组患者,但由于作为研究对象的患者其生物学特征、遗传性状、病理组织结构、对治疗的反应及临床转归等存在多样性,同种疾病的患者其临床表型可相差较大,因此同质性有时较差;线性回归、Logistic回归、cox回归等常用统计分析方法,应用的前提条件之一是要求研究对象
5、具有同质性特征,而临床医学研究的对象—病例常不具备这一条件。CART则通过种树、剪枝过程,改善每个亚人群观察对象的同质性。诊断疾病时,医生常根据患者的病史和临床表现先进行一些灵敏度和特异性较高的检查,多数患者即可获得诊断,少数不能确诊的病例,进行进一步检查,直至作出明确诊断。CART的树型分析过程与医生的临床思维过程十分相似,也符合循证医学的理论。对于流行病学研究资料,CART分析的原则是根据某一因素分出同质性高的人群,即该因素在人群中对疾病的作用方式一致,如暴露越大,则发病越多。如果某因素在不同人群中的作用方式不一样,如在某一人群中是暴露越多发病越多;而在另一人群中则是暴露越少发
6、病越多,或这种趋势并不明显,此时这两个人群就要被分开。将各研究因素进行CART分析,对整个人群进行分类,最终将研究人群划分为具有不同发病概率的亚人群。3实例分析3.1高血压危险因素的CART分析贾崇奇[9]所做的高血压危险因素分类树分析结果表明,高血压的主要危险因素按其在分类树中的相对重要性为:超重、中心型肥胖、饮酒、吸烟、高血脂症、年龄与性别。高血压主要危险人群依次为:(1)超重+中心型肥胖+饮酒者;(2)超重+中心型肥胖+高年龄及其男性吸烟者;(3)超重+高血脂症者;(4)中心型肥胖+饮酒+吸烟者。通过CART分析,将人群分为高血压患病风险不同的多个亚人群(不同的节点),即不同
7、类型的高危人群,为采取针对性较强的防控措施提供了依据。3.2米非司酮配伍前列腺素终止早孕时阴道出血时间延迟危险因素的CART分析赵一鸣[6]所做的米非司酮配伍前列腺素终止早孕时阴道出血时间延迟危险因素的回归树分析结果显示,胎囊大小是影响出血时间最重要的因素;以12.5mm胎囊直径为界将观察人群分为两个节点,胎囊直径小于12.5mm时出血时间较短(终结点),胎囊直径大于12.5mm时出血时间较长。在胎囊直径大于12.5mm的情况下,经期小于5d则出血时间较短(终结点),
此文档下载收益归作者所有