11.决策树和随机森林

11.决策树和随机森林

ID:32343975

大小:2.94 MB

页数:72页

时间:2019-02-03

11.决策树和随机森林_第1页
11.决策树和随机森林_第2页
11.决策树和随机森林_第3页
11.决策树和随机森林_第4页
11.决策树和随机森林_第5页
资源描述:

《11.决策树和随机森林》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、法律声明本课件包括演示文稿、示例、代码、题库、视频和声音等内容,小象学院和主讲老师拥有完全知识产权的权利;只限于善意学习者在本课程使用,不得在课程范围外向任何第三方散播。任何其他人或机构不得盗版、复制、仿造其中的创意及内容,我们保留一切通过法律手段追究违反者的权利。课程详情请咨询微信公众号:小象新浪微博:ChinaHadoop互联网新技术在线教育领航者1/72决策树和随机森林邹博目标任务与主要内容复习信息熵熵、联合熵、条件熵、互信息决策树学习算法信息增益ID3、C4.5、CARTBagging与随机森林互联网新技术

2、在线教育领航者3/72CART输入数据x:M个样本数据,每个数据包括年龄、性别、职业、每日使用计算机时间等输出y:该样本是否喜欢计算机游戏互联网新技术在线教育领航者4/72随机森林互联网新技术在线教育领航者5/72决策树:Level互联网新技术在线教育领航者6/72决策树互联网新技术在线教育领航者7/72条件熵H(X,Y)–H(X)(X,Y)发生所包含的熵,减去X单独发生包含的熵:在X发生的前提下,Y发生“新”带来的熵该式子定义为X发生前提下,Y的熵:条件熵H(YX)互联网新技术在线教育领航者8/72推导条件熵的定义式H(

3、X,Y)H(X)p(x,y)logp(x,y)p(x)logp(x)x,yxp(x,y)logp(x,y)p(x,y)logp(x)x,yxyp(x,y)logp(x,y)p(x,y)logp(x)x,yx,yp(x,y)p(x,y)logx,yp(x)p(x,y)logp(yx)x,y互联网新技术在线教育领航者9/72根据条件熵的定义式,可以得到H(X,Y)H(X)p(x,y)logp(yx)x,yp(x,y)logp(yx)xyp(x)p(yx)

4、logp(yx)xyp(x)p(yx)logp(yx)xyp(x)p(yx)logp(yx)xyp(x)HYXxx互联网新技术在线教育领航者10/72决策树的实例(自带测试数据)注:Weka的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine)的,基于JAVA环境下开源的机器学习(machinelearning)以及数据挖掘(dataminining)

5、软件。它和它的源代码可在其官方网站下载。互联网新技术在线教育领航者11/72决策树示意图互联网新技术在线教育领航者12/72决策树(DecisionTree)决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。决策树学习是以实例为基础的归纳学习。决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。互联网新技术在线教育领航者13/72决策树学习算法的特点决策树学习算法的最大

6、优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练实例进行较好的标注,就能够进行学习。显然,属于有监督学习。从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。互联网新技术在线教育领航者14/72决策树学习的生成算法建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有一下三种算法。ID3IterativeDichotomiserC4.5CARTClassificationAndRegressionTree互联网新技术在线教育领航者15/7

7、2信息增益概念:当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵。信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(DA)之差,即:g(D,A)=H(D)–H(DA)显然,这即为训练数据集D和特征A的互信息。互联网新技术在线教育领航者16/72基本记号设训练数据集为D,D表示样本个数。设有K个类Ck,k1,2K,Ck为属于类Ck的样本

8、个数,有:CkDk设特征A有n个不同的取值a,aa,根据特12n征A的取值将D划分为n个子集D1,D2Dn,Di为Di的样本个数,有:DiDi记子集Di中属于类Ck的样本的集合为Dik,Dik为Dik

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。