正文描述:《决策树方法使用中的改进策略》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、决策树方法使用中的改进策略论文导读:随着数据挖掘技术的逐步成熟,其算法的深入研究已成为当前该领域的焦点,决策树方法作为数据挖掘领域重要算法之一,在分类规则中突现了它的优势。决策树方法是从机器学习中引出的,它根据给定的训练样本数据集来构建分类模型,以树的形式来表达模型。建立决策树的经典算法是ID3算法,它可以被描述成一个递归的过程:首先,选择训练样本的一个属性作为节点,对该属性的每种可能的取值创建一个分枝,并据此训练样本划分为几个子集。关键词:决策树,训练样本,ID3算法随着数据挖掘技术的逐步成熟,其算法的深入研究已成为当前该领
2、域的焦点,决策树方法作为数据挖掘领域重要算法之一,在分类规则中突现了它的优势。1.决策树方法概述决策树方法是从机器学习中引出的,它根据给定的训练样本数据集来构建分类模型,以树的形式来表达模型。决策树的算法通常分为两个阶段:决策树的构建和决策树的修剪。模型建成后,对于树中每一类别的描述,形成分类规则。论文格式。1.1决策树的表示形式一般来说,决策树是一个类似于流程图的树结构,其中每个节点表示在一个属性上的测试,每个分枝代表一个测试输出,每个树叶节点代表类或类分布。决策树的最顶层节点是根节点。更明确地说,决策树通过根节点到叶节点的
3、顺序对实例进行分类,其中每个节点代表一个属性,每个分枝代表它所连接的上节点在其属性上的可能取值。举例来说,一个实例的分类是从树的根节点开始,测试该节点所代表的属性,然后沿属性取值的某个分枝向下移动,不断重复这个过程,直至到达叶节点,即得到该实例所属的类。1.2决策树的核心问题建立决策树的目标是通过训练样本建立目标类变量关于各输入变量的分类预测模型,全面实现输入变量和目标变量在不同取值下的数据分组,进而用于新数据对象的分类和预测。当利用所建决策树对象进行分析时,决策树能够依据该数据输入变量的取值,推断成相应目标变量的分类或取值。
4、目前,从事机器学习的专家学者们仍在潜心研究这些算法的改进或寻找更有效的新算法。归纳起来,决策树算法主要围绕两个核心问题展开:第一,决策树的建立问题,即如何更快、更有效地利用样本数据建立决策树以及建立的决策树能容易地被现实世界所理解;第二,决策树的剪枝问题,即利用训练数据或检验数据对已建立的决策树进行优化处理,使最终的决策树大小适中。1.3决策树方法的适用范围决策树方法并不适用于现实世界中的所有问题,它需要满足下列条件时才能产生较优的结果。首先,实例要用属性■值的形式描述。具体讲,实例是由一系列固定的属性(如:性别)和值(如:男
5、)构成:属性的可能取值范围比较小(如:男、女)时,决策树的效果最好。其次,目标类变量的可能取值是离散的。论文格式。决策树算法要求每个实例属于某个类,最简单的情况是只存在两个可能的目标类取值,当然也可以扩充到两个以上的可能取值。最后,训练样本可以有错误。即决策树算法应是健壮的,不仅训练样本的目标类可以有错误,而且属性值也可以有错误。训练样本数据的某个属性可以包2.建立决策树的基本算法建立决策树的经典算法是ID3算法,它可以被描述成一个递归的过程:首先,选择训练样本的一个属性作为节点,对该属性的每种可能的取值创建一个分枝,并据此训
6、练样本划分为几个子集。然后,对每个分枝采取相同的方法,训练样本是其父节点划分的若干子集中的对应于该分枝取值的那个样本子集。当以下情况出现时停止该节点分枝的分裂,并使其成为叶节点:(1)该节点的所有训练样本属于同一分类;(2)每一剩余属性可以用来进一步划分样本;(3)该分枝没有样本。此时,一棵完整的决策树便形成了。该算法的核心是确定分枝准则,即如何从众多的属性变量中选择一个最佳的分裂属性。通常,在树的每个节点上使用信息增益度量选择属性,选择具有最高增益的属性作为当前节点的测试属性,该属性使得对结果划分中的样本分类所需的信息量最小
7、,并反映划分的最小随机性。这种理论方法使得对每一个对象分类所需的期望测试数目达到最小,并确保找到一棵简单的树。3•决策树实际应用中的改进前面所描述的算法是在数据十分理想的情况下进行的,而现实中的数据在多数情况下不能满足算法所要求的条件,这样就不能直接应用建立决策树的算法。因此,决策树算法在实际应用之前应在以下几个方面进行改进。(1)连续型属性的处理在实际应用中,除了离散型属性之外,还存在大量的连续型属性,而决策树算法处理的属性要求是离散型的,这就要求算法的扩展使之能够处理连续型属性。对于连续型属性取值为相对集中的整数时,可以采
8、取以下方法:首先,将连续型数据按照升序排列(重复的值被合并到一起);其次,因为最大值不能作为分裂点,所以用基本算法计算其他每个属性值的信息增益,选择值最大的作为分裂点。由于给定的参照值相同,所以只需计算信息爛,选择爛值最小的即可;最后,将其属性值进行二分,一般情况下用中值作为
显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。