模式识别:决策树分类

模式识别:决策树分类

ID:41983439

大小:298.01 KB

页数:12页

时间:2019-09-05

模式识别:决策树分类_第1页
模式识别:决策树分类_第2页
模式识别:决策树分类_第3页
模式识别:决策树分类_第4页
模式识别:决策树分类_第5页
资源描述:

《模式识别:决策树分类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第2讲决策树分类2003.11.181数据实例PlayTennis数据库片段:2003.11.182决策树实例关于PlayTennis的决策树:2003.11.183决策树学习算法的代表早在1986年的时候,Quinlan就提出了著名的ID3算法。(PublishedonMLJ)用ID3算法长树的基本思想:分类能力最好的属性被测试并创建树的根结点测试属性每个可能的值产生一个分支训练样本划分到适当的分支形成儿子结点重复上面的过程,直到所有的结点都是叶子结点两个问题:什么属性最好?什么结点才是叶子结点?2003.11.184信息增益(In

2、formationGain)属性A划分样本集S的信息增益Gain(S,A)为:Gain(S,A)=E(S)–E(S,A)其中,E(S)为划分样本集S为c个类的熵;E(S,A)为属性A划分样本集S导致的期望熵。2003.11.185熵(Entropy)划分样本集S为c个类的熵E(S)为:其中,pi=ni/n,为S中的样本属于第i类Ci的概率,n为S中样本的个数。2003.11.186期望熵(ExpectedEntropy)属性A划分样本集S导致的期望熵E(S,A)为:其中,Values(A)为属性A取值的集合;Sv为S中A取值为v的样本

3、子集,Sv={sSA(s)=v};E(Sv)为将Sv中的样本划分为c个类的信息熵。

4、Sv

5、/

6、S

7、为Sv和S中的样本个数之比。2003.11.187回味ID3算法ID3算法每一步选择具有最大信息增益的属性作为测试属性来长树。直到最大的信息增益为也零为止。(两个问题的解决)熵(Entropy)刻画了样本集的纯度,长树的过程是一个熵降低、信息增益、从混沌到有序的过程。(长树的物理意义)2003.11.188伪代码算法Decision_Tree(samples,attribute_list)输入由离散值属性描述的训练样本集samples

8、;候选属性集合atrribute_list。输出一棵决策树。方法(1)创建节点N;(2)ifsamples都在同一类C中then(3)返回N作为叶节点,以类C标记;(4)ifattribute_list为空then2003.11.189伪代码(续)(5)返回N作为叶节点,以samples中最普遍的类标记;//多数表决(6)选择attribute_list中具有最高信息增益的属性test_attribute;(7)以test_attribute标记节点N;(8)foreachtest_attribute的已知值v//划分samples(

9、9)由节点N分出一个对应test_attribute=v的分支;(10)令Sv为samples中test_attribute=v的样本集合;//一个划分块(11)ifSv为空then(12)加上一个叶节点,以samples中最普遍的类标记;(13)else加入一个由Decision_Tree(Sv,attribute_list–test_attribute)返回的节点。2003.11.1810ID3算法的不足及改进ID3算法存在的主要不足:过度拟合问题(treeprunning)处理连续属性值问题(discretization)处理缺

10、少属性值问题(replacement)属性选择的度量标准问题(heuristicmeasure)针对这些不足,Quinlan做了一系列的改进,并于1993年形成了C4.5算法。(C4.5:ProgramsforMachineLearning)2003.11.1811决策树学习总结决策树(DecisionTree)学习是以样本为基础的归纳学习方法,它采用自顶向下的递归方式来构造决策树。(贪心算法)决策树的表现形式是类似于流程图的树结构,在决策树的内部结点进行属性值测试,并根据属性值判断由该结点引出的分支,最后在决策树的叶子结点分类。(学

11、习阶段、训练阶段)由训练样本集学到决策树后,为了对未知样本分类,需要在决策树上测试未知样本的属性值。测试路径由根结点到某个叶子结点,叶子结点代表的类就是未知样本所属的类。(工作阶段、测试阶段)2003.11.1812

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。