欢迎来到天天文库
浏览记录
ID:57291202
大小:551.50 KB
页数:33页
时间:2020-08-10
《随机森林课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、随机森林目录1决策树3随机森林2集成学习4袋外错误率(OOB)5随机森林的简单实例分析决策树决策树:1.每个内部节点上选用一个属性进行分割2.每个分叉对应一个属性值3.每个叶子结点代表一个分类A1A2A3c1c2c1c2c1a11a12a13a21a22a31a32图1决策树结构图如图1所示:决策树决策树生成算法分成两个步骤:(1)树的生成a.开始,数据都在根节点b.递归的进行数据分片(2)树的剪枝a.防止过拟合决策树使用:对未知数据进行分割按照决策树上采用的分割属性逐层往下,直到一个叶子节点决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失值不敏感,
2、可以处理不相关特征数据。缺点:可能会产生过度匹配的问题。使用数据类型:数值型和标称型。决策树例1为决策树的构建流程:一天,老师问了个问题,只根据头发和声音怎么判断一位同学的性别为了解决这个问题,同学们马上简单的统计了7位同学的相关特征,数据如表1所示:头发声音性别长粗男短粗男短粗男长细女短细女短粗女长粗女长粗女表1数据信息表决策树机智的同学A想了想,先根据头发判断,若判断不出,再根据声音判断,于是画了一幅图,如图2所示:图2A同学的决策树于是,一个简单、直观的决策树就这么出来了。同学A的决策树:头发长、声音粗就是男生;头发长、声音细就是女生;头发短、声音粗是男生
3、;头发短、声音细是女生。决策树这时又蹦出个同学B,想先根据声音判断,然后再根据头发来判断,如是大手一挥也画了个决策树,如图3所示:图3B同学的决策树同学B的决策树:首先判断声音,声音细,就是女生;声音粗、头发长是男生;声音粗、头发长是女生。决策树那么问题来了:同学A和同学B谁的决策树好些?计算机做决策树的时候,面对多个特征,该如何选哪个特征为最佳的划分特征?划分数据集的大原则是:将无序的数据变得更加有序。我们可以使用多种方法划分数据集,但是每种方法都有各自的优缺点。于是这么想,如果能测量数据的复杂度,对比按不同特征分类后的数据复杂度,若按某一特征分类后复杂度减少
4、的更多,那么这个特征即为最佳分类特征。决策树ClaudeShannon定义了熵和信息增益。用熵来表示信息的复杂度,熵越大,则信息越复杂。公式如下:信息增益,表示两个信息熵的差值。信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。决策树首先计算未分类前的熵,总共有8位同学,男生3位,女生5位。接着分别计算同学A和同学B分类后信息熵。同学A首先按头发分类,分类后的结果为:长头发中有1男3女。短头发中有2男2女。决策树决策树同理,按同学B的方法,首先按声音特征来分。分类后的结果为:声音粗中有3男3女。声音细中有0男2女。按同学B的方法,
5、先按声音特征分类,信息增益更大,区分样本的能力更强,更具有代表性。集成学习集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。随机森林是集成学习的一个子类,它依靠于决策树的投票选择来决定最后的分类结果。个体学习器1个体学习器2个体学习器T…结合模块输出图4集成学习结构图集成学习(a)集成提升性能测试例1测试例2测试例3H1√√ХH2√√ХH3√√Х集成√√Х测试例1测试例2测试例3H1√√ХH2√Х√H3Х√√集成√√√(b)集成不起作用集成学习(c
6、)集成提升性能测试例1测试例2测试例3H1√ХХH2Х√ХH3ХХ√集成ХХХ从以上看出:要获得好的集成效果,个体学习器应‘好而不同’,即个体学习器要有一定的‘准确性’,即学习器不能太坏,并且要有‘多样性’,即学习器间具有差异。什么是随机森林?随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,其实这也是随机森林的主要思想--集成思想的体现。“随机”的包括随机选取训
7、练样本集和随机选取分裂属性集。(具体含义在随机森林的生成部分会解释)什么是随机森林?其实从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。随机森林的特点:优点:1.两个随机性的引入,使得随机森林不容易陷入过拟合;2.两个随机性的引入,使得随机森林具有很好的抗噪声能力;3.对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化且能够有效地运行在大数据集上;4.能够处理具有高维特征的输入样本,而且不需要
8、降维;5.在生成过程中,
此文档下载收益归作者所有