欢迎来到天天文库
浏览记录
ID:46232763
大小:60.74 KB
页数:18页
时间:2019-11-21
《机器学习算法总结_决策树》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第三章决策树决策树(DecisionTree)是在已知各种情况发生概率的基础上,通过构成决策树來求取净现值的期望值大于等于零的概率,评价项冃风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用爛。这一度量是基于信息学理论中爛的概念。2.1决策树模型与学习2.1.1决策树模
2、型定义2.1(决策树)分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directededge)组成。□一一决策点,是对几种可能方案的选择,即最后选择的最佳方案。如果决策属于多级决策,则决策树的中间可以有多个决策点,以决策树根部的决策点为最终决策方案为最终决策方案。O——状态节点,代表备选方案的经济效果(期望值),通过各状态节点的经济效果的对比,按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝,概率枝的数目表示可能出现的自然状态数目每个分枝上
3、要注明该状态出现的概率。△——结果节点,将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。2.1.2决策树学习决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组屮推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。1986年Quinlan提出了著名的ID3算法。在ID3算法的基础上,1993年
4、Quinlan又提出TC4.5算法。为了适应处理大规模数据集的需要,后來又提岀了若干改进的算法,其中SLTQ(super-visedlearninginquest)和SPRINT(scalableparallelizableinductionofdecisiontrees)是比较有代表性的两个算法。2.1.3决策树分析法决策树分析法是常用的风险分析决策方法。该方法是一种用树形图来描述各方案在未来收益的计算。比较以及选择的方法,其决策是以期望值为标准的。它利用了概率论的原理,并且利用一种树形图作为分
5、析工具。它利用了概率论的原理,并XL利用一种树形图作为分析工具。其基本原理是用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能岀现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。决策树分析法是常用的风险分析决策方法。该方法是一种用树形图来描述各方案在未来收益的计算。比较以及选择的方法,其决策是以期望值为标准的。人们对未来可能会遇到好几种不同的情况。每种情况均有出现的可能,人们目前无法确知,但是可以根据以前的资料来推断各种自然状态出现的概率。
6、在这样的条件下,人们计算的各种方案在未来的经济效果只能是考虑到各种自然状态出现的概率的期望值,与未来的实际收益不会完全相等。如果一个决策树只在树的根部有一决策点,则称为单级决策;若一个决策不仅在树的根部有决策点,而且在树的中间也有决策点,则称为多级决策。科学的决策是现代管理者的一项重要职责。我们在企业管理实践中,常遇到的情景是:若干个可行性方案制订出来了,分析一下企业内、外部环境,大部分条件是己知的,但还存在一定的不确定因素。每个方案的执行都可能出现几种结果,各种结果的出现有一定的概率,企业决策存
7、在着一定的胜算,也存在着一定的风险。这时,决策的标准只能是期望值。即,各种状态下的加权平均值。针对上述问题,用决策树法来解决不失为一种好的选择。决策树法作为一种决策技术,已被广泛地应用于企业的投资决策之中,它是随机决策模型中最常见、最普及的一种规策模式和方法此方法,有效地控制了决策带來的风险。所谓决策树法,就是运用树状图表示各决策的期望值,通过计算,最终优选出效益最大、成本最小的决策方法。决策树法属于风险型决策方法,不同于确定型决策方法,二者适用的条件也不同。应用决策树决策方法必须具备以下条件:1
8、有决策者期望达到的明确冃标;2存在决策者可以选择的两个以上的可行备选方案;3存在着决策者无法控制的两种以上的自然状态(如气候变化、市场行情、经济发展动向等);4不同行动方案在不同自然状态下的收益值或损失值(简称损益值)可以计算出来;5决策者能估计出不同的自然状态发生概率。2.2特征选择2.2.1特征选择问题1、为什么要做特征选择在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降
此文档下载收益归作者所有