欢迎来到天天文库
浏览记录
ID:48401471
大小:721.79 KB
页数:9页
时间:2020-01-19
《分类与回归树.pptx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1判定树基本观念2分类与回归树(CART)分类与回归树(ClassificationAndRegressionTrees,CART)CART算法是建构判定树时最常用的算法之一。自从1984年布里曼(L.Brieman)与其同僚发表这种方法以来,就一直机械学习实验的要素。3分类与回归树(CART)找出起始的分隔:用来评估一个分隔数的衡量标准是分散度(diversity)。对于一组数据的『分散度指标』(indexofdiversity)有多种计算方式。不论哪一种,分散度指标很高,表示这个组合中包含平均分配到多个类别,而分
2、散度指标很低则表示一个单一类别的成员居优势。4分类与回归树(CART)找出起始的分隔:最好的分隔变量是能够降低一个数据组的分散度,而且降得最多。换言之,我们希望以下这个式子最大化:分散度(分隔前)-﹝分散度(分隔后左边子集合)+分散度(分隔后右边子集合)﹞三分种分散度衡量法:min{P(c1),P(c2)}2P(c1)P(c2)〔P(c1)logP(c1)〕+〔P(c2)logP(c2)〕5分类与回归树(CART)计算每个节点的错误率:每一个叶部如今都分配到一个类别以及一个错误率。回顾前图,图中选取了从根部到标示为『
3、女性』的叶部路径。该节点是一个叶部节点,表示找不到任何分隔变量可以显著的降低其分散性。然而,这并不表示所有祗达这个叶部的资料都属于同一类。使用简单机率的定义,我们可以看到11个叶部中有9个是正确分类。这告诉我们,以这个训练组而言,抵达这个节点的资料是女性的机率为0.818。相对的,这个叶部的错误率1-0.818就是0.812。6分类与回归树(CART)计算整个判定树的错误率:整个判定树的错误率是所有叶部错误率的加权总数。每一个叶部的错误率乘上数据抵达叶部的机率(分配到资料的比例),加起来的总数就是整个判定树的错误率。
4、7分类与回归树(CART)8分类与回归树(CART)9分类与回归树(CART)将代价列入考虑:我们讨论至此,只使用错误率作为评估一个分支树良莠的依据。然而,在许多应用上,错误分类的代价依数据类别不同而有异。当然在医疗诊断上,一个错误的阴性诊断(negative)也许会比错误的阳性诊断(positive)伤害更大。在进行癌症抹片检查时,误诊为性也许只会带来更多的检查,但误诊为阴性却可能让病情恶化。我们可以把问题列入考虑,以一个使用加权方式将错误分类的机率加倍的代价函数,来取代错误率。
此文档下载收益归作者所有