数据挖掘之随机森林算法.ppt

数据挖掘之随机森林算法.ppt

ID:57041358

大小:2.70 MB

页数:45页

时间:2020-07-27

数据挖掘之随机森林算法.ppt_第1页
数据挖掘之随机森林算法.ppt_第2页
数据挖掘之随机森林算法.ppt_第3页
数据挖掘之随机森林算法.ppt_第4页
数据挖掘之随机森林算法.ppt_第5页
资源描述:

《数据挖掘之随机森林算法.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、随机森林成员:XXXXXXXXX目录随机森林的引入及相关基本概念·什么是随机森林·决策树算法随机森林的生成·袋外错误率随机森林的特点·过拟合随机森林的实例分析1.什么是随机森林?随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(EnsembleLearning)方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想--集成

2、思想的体现。2.随机森林的相关基础知识1)信息、熵以及信息增益的概念这三个基本概念是决策树的根本,是决策树利用特征来分类时,确定特征选取顺序的依据。理解了它们,决策树你也就了解了大概。引用香农的话来说,信息是用来消除随机不确定性的东西。当然这句话虽然经典,但是还是很难去搞明白这种东西到底是个什么样,可能在不同的地方来说,指的东西又不一样。对于机器学习中的决策树而言,如果带分类的事物集合可以划分为多个类别当中,则某个类(xi)的信息可以定义如下:I(x)用来表示随机变量的信息,p(xi)指是当xi发生时的概率。熵是用来度量不确

3、定性的,当熵越大,X=xi的不确定性越大,反之越小。对于机器学习中的分类问题而言,熵越大即这个类别的不确定性更大,反之越小。   信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好3.决策树算法决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。在之前介绍过决策树的ID3算法实现,今天主要来介绍决策树的另一种实现,即CART算法。1.CART算法的认

4、识2.CART算法的原理3.CART算法的实现1.CART算法的认识ClassificationAndRegressionTree,即分类回归树算法,简称CART算法,它是决策树的一种实现。CART算法是一种二分递归分割技术,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树,它在每一步的决策时只能是“是”或者“否”,即使一个feature有多个取值,也是把数据分为两部分。在CART算法中主要分为两个步骤(1)将样本递归划分进行

5、建树过程(2)用验证数据进行剪枝————————————————2.CART算法的原理设代表单个样本的个属性,表示所属类别。CART算法通过递归的方式将维的空间划分为不重叠的矩形。划分步骤大致如下: (1)选一个自变量,再选取的一个值,把维空间划分为两部分,一部分的所有点都满足,另一部分的所有点都满足,对非连续变量来说属性值的取值只有两个,即等于该值或不等于该值。  (2)递归处理,将上面得到的两部分按步骤(1)重新选取一个属性继续划分,直到把整个维空间都划分完。CART原则:用基尼系数作为建立决策树的指标,分别各种计算

6、各种水平分割后的标签列的各种取值的概率分布 其中表示属于i类的概率,当Gini(A)=0时,所有样本属于同类。下面举个简单的例子,如下图01在上述图中,属性有3个,分别是有房情况,婚姻状况和年收入,其中有房情况和婚姻状况是离散的取值,而年收入是连续的取值。拖欠贷款者属于分类的结果。假设现在来看有房情况这个属性,那么按照它划分后的Gini指数计算如下:而对于婚姻状况属性来说,它的取值有3种,按照每种属性值分裂后Gini指标计算如下决策树C4.5定义:C4.5是决策树算法的一种。决策树算法作为一种分类算法,目标

7、就是将具有p维特征的n个样本分到c个类别中去。相当于做一个投影,c=f(n),将样本经过一种变换赋予一种类别标签。决策树为了达到这一目的,可以把分类的过程表示成一棵树,每次通过选择一个特征pi来进行分叉。这里通过下面的数据集(均为离散值,对于连续值,下面有详细介绍)看下信息增益率节点选择上面的训练集有4个属性,即属性集合A={OUTLOOK, TEMPERATURE, HUMIDITY, WINDY};而类标签有2个,即类标签集合C={Yes, No},分别表示适合户外运动和不适合户外运动,其实是一个二分类问题。 数据集D包

8、含14个训练样本,其中属于类别“Yes”的有9个,属于类别“No”的有5个,则计算其信息熵:即公式(1)的值Info(D) = -9/14 * log2(9/14) -5/14 * log2(5/14) = 0.940对属性进行水平分割,下面对属性集中每个属性分别计算信息熵,如下所示:1.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。