数据挖掘之随机森林算法.ppt

ID：57041358

大小：2.70 MB

页数：45页

时间：2020-07-27

资源描述：

《数据挖掘之随机森林算法.ppt》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、随机森林成员：XXXXXXXXX目录随机森林的引入及相关基本概念·什么是随机森林·决策树算法随机森林的生成·袋外错误率随机森林的特点·过拟合随机森林的实例分析1.什么是随机森林？随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（EnsembleLearning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这样的比喻还是很贴切的，其实这也是随机森林的主要思想--集成

2、思想的体现。2.随机森林的相关基础知识1）信息、熵以及信息增益的概念这三个基本概念是决策树的根本，是决策树利用特征来分类时，确定特征选取顺序的依据。理解了它们，决策树你也就了解了大概。引用香农的话来说，信息是用来消除随机不确定性的东西。当然这句话虽然经典，但是还是很难去搞明白这种东西到底是个什么样，可能在不同的地方来说，指的东西又不一样。对于机器学习中的决策树而言，如果带分类的事物集合可以划分为多个类别当中，则某个类（xi）的信息可以定义如下:I(x)用来表示随机变量的信息，p(xi)指是当xi发生时的概率。熵是用来度量不确

3、定性的，当熵越大，X=xi的不确定性越大，反之越小。对于机器学习中的分类问题而言，熵越大即这个类别的不确定性更大，反之越小。　　信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好3.决策树算法决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。在之前介绍过决策树的ID3算法实现，今天主要来介绍决策树的另一种实现，即CART算法。1.CART算法的认

4、识2.CART算法的原理3.CART算法的实现1.CART算法的认识ClassificationAndRegressionTree，即分类回归树算法，简称CART算法，它是决策树的一种实现。CART算法是一种二分递归分割技术，把当前样本划分为两个子样本，使得生成的每个非叶子结点都有两个分支，因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树，它在每一步的决策时只能是“是”或者“否”，即使一个feature有多个取值，也是把数据分为两部分。在CART算法中主要分为两个步骤（1）将样本递归划分进行

5、建树过程（2）用验证数据进行剪枝————————————————2.CART算法的原理设代表单个样本的个属性，表示所属类别。CART算法通过递归的方式将维的空间划分为不重叠的矩形。划分步骤大致如下：（1）选一个自变量，再选取的一个值，把维空间划分为两部分，一部分的所有点都满足，另一部分的所有点都满足，对非连续变量来说属性值的取值只有两个，即等于该值或不等于该值。（2）递归处理，将上面得到的两部分按步骤（1）重新选取一个属性继续划分，直到把整个维空间都划分完。CART原则：用基尼系数作为建立决策树的指标，分别各种计算

6、各种水平分割后的标签列的各种取值的概率分布其中表示属于i类的概率，当Gini(A)=0时，所有样本属于同类。下面举个简单的例子，如下图01在上述图中，属性有3个，分别是有房情况，婚姻状况和年收入，其中有房情况和婚姻状况是离散的取值，而年收入是连续的取值。拖欠贷款者属于分类的结果。假设现在来看有房情况这个属性，那么按照它划分后的Gini指数计算如下：而对于婚姻状况属性来说，它的取值有3种，按照每种属性值分裂后Gini指标计算如下决策树C4.5定义:C4.5是决策树算法的一种。决策树算法作为一种分类算法，目标

7、就是将具有p维特征的n个样本分到c个类别中去。相当于做一个投影，c=f(n)，将样本经过一种变换赋予一种类别标签。决策树为了达到这一目的，可以把分类的过程表示成一棵树，每次通过选择一个特征pi来进行分叉。这里通过下面的数据集（均为离散值，对于连续值，下面有详细介绍）看下信息增益率节点选择上面的训练集有4个属性，即属性集合A={OUTLOOK, TEMPERATURE, HUMIDITY, WINDY}；而类标签有2个，即类标签集合C={Yes, No}，分别表示适合户外运动和不适合户外运动，其实是一个二分类问题。数据集D包

8、含14个训练样本，其中属于类别“Yes”的有9个，属于类别“No”的有5个，则计算其信息熵：即公式（1）的值Info(D) = -9/14 * log2(9/14) -5/14 * log2(5/14) = 0.940对属性进行水平分割，下面对属性集中每个属性分别计算信息熵，如下所示:1.

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 45



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据挖掘之随机森林算法.ppt

数据挖掘之随机森林算法.ppt

相关文章

相关标签