欢迎来到天天文库
浏览记录
ID:32983603
大小:58.92 KB
页数:8页
时间:2019-02-18
《数据挖掘分类方法中决策树算法探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘分类方法中决策树算法探究摘要:数据挖掘分类法是指从大量的数据库中自动地、智能地抽取一些行之有效的、可以相信的和理解的以及有用模式的过程。作为数据挖掘的重要内容之一的分类法,日前,分类已经被广泛运用于天气预测、顾客区分、医疗诊断、欺诈甄别、信用证实当中。在数据挖掘的众多分类方法中,决策树算法在大量数据环境中应用的最为广泛。该文通过对决策树算法的基本思想进行分析,对决策树算法中遇到的一些问题作出分析并提出建议,在阐述决策树算法现状的基础上,对决策树算法未来的发展趋势作出预测,希望能对决策树算法的使用者和研究者提供一定借鉴。关键词:数据挖掘分类;决策树算法;分类中图分类号:TP31
2、1文献标识码:A文章编号:1009-3044(2013)35-7904-02我国在经济上的快速发展和社会上的进步,也给社会中的各种活动领域带来了大量数据,人们按照一定的模型把这些数据保存到不同的数据库中。这些数据库可以为科研和商业等活动的决策提供大量所需要的知识,使用数据挖掘分类法能够正确有效的取得这些信息。数据挖掘技术中的一个重要方法就是分类算法,分类方法主要是构建一个分类模型或者分类函数,这些函数或者分类模型必须要具有据数据集的特点,这些模型可以从某个已知类别中反映某个未知类别,目前的各种分类方法已经被逐渐运用到各行各业中,例如医院可以利用分类法进行医疗诊断、银行利用分类法进行信
3、用评估、还可以运用到市场营销和高等教育等实际应用中,作为挖掘分类方法中的决策树算法在分类法中有着重要的作用,笔者在此对数据挖掘分类法中的决策树算法进行以下分析研究。1决策树算法概述数据挖掘就是从模糊地、不完全地、大量地、有噪声的、随机的以及原始数据中提取隐藏在那里面的潜在的、我们预先不知道的有用信息知识的挖掘过程。作为数据挖掘分类法中一个分支的决策树算法起源于概念学习系统。决策树算法就是使用树的结构对数据进行分类,每个条件下的记录集就好比一棵树的叶节点,人们根据字段数据取值的不同,可以对决策树进行分支,在决策树各个分支的子集中再重复建立分支和决策树各下层节点,这样一棵决策树就形成了。
4、决策树算法最早是由Hunt等人提出来的,目前最有影响的是ID3和C4.5[l]oID3主要是选择运用信息最大属性的增益值来进行样本训练划分的,其目的是能够使商在分裂系统时达到最小,以此来提高决策树算法的精确度和运算速度。当然ID3算法也有其自身的缺陷,例如可以运用信息增益作为分裂属性的标准,但是这种行为在取值时会不自然地偏向于取值较多属性,然而在大部分情况下,这种属性都不能为我们提供许多有价值的信息°C4.5是在改进ID3的中得到的一种新算法,这种算法不但能够对连续值的属性进行处理,而且可以对离散值的属性进行很好的处理,C4.5选择测试的标准主要是采用信息增益比,这在很大程度上弥补了
5、ID3的一些不足,除此之外,我们还可以采用其他的一些决策树算法进行计算,例如CART、QUEST、0C1、CAL5等。2决策树算法中遇到的问题2.1取值问题一个决策树的建立,必须要根据字段对不同取值的记录来建立对决策树进行分支,并且在每个决策树的子集分支中反复建立下层的分支与节叶点,构建决策树的关键在于对不同取值的分支阶段进行选择。选择不同的字段值,也会使得子集计录的划分值各不相同,不同的字段值还会对决策树结构的好坏和生长的快慢造成一定影响,从而影响到信息规则寻找的优劣。因此,构建一个好的决策树最主要的难点在于对分支取值进行良好的选择。好的分支取值的利用,不仅能够对决策树的结构产生良
6、好的作用,还能够使决策树的生长速度起到良好的加快作用,从而使人们找到一个较好的规则信息[2]。相反,如果对决策树的分支仅仅只是依据一个比较差的取值来来决定,不但会影响决策树的生长的速度,还会导致结构性差和对决策树的分支过细这类不良现象的发生,因而难以发现那些本就可以得到有用规则的信息。2.2数据过分近似问题在决策树的运算过程中产生数据过分近似的原因主要有两点。(1)在寻找测试属性时各个属性在选择自己算法上都有自己的偏好,因而非常有可能会找到算法的偏好,可这并不是和种类真正相关的属性。想要在选择决策树时避免选到不相关属性是不容易确定的,所以要从决策树中把相关的属性删除,这种技巧也就是决
7、策树的修剪法[3],修剪法可以分为后修剪方法和前修剪方法。后修剪方法是当决策树生长完成以后进行剪枝,前修剪方法主要是指在树的生长完成前就先进行剪枝。(2)由于物体本身的属性太多,其中有些和种类不相关,决策树算法很容易选到和自身种类不相关的属性。3决策树算法现状可以采用决策树的算法共同对处理数据挖掘任务进行处理以得到有价值的模式和规则,但以前使用的大多数决策树算法都是针对小数据的,要求必须有常驻内存存在与训练集中,这就导致了决策树算法在效率、精确度以及可伸缩
此文档下载收益归作者所有