资源描述:
《数据挖掘中的数据分类算法综述_刘红岩》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、ISSN1000-0054清华大学学报(自然科学版)2002年第42卷第6期5/38CN11-2223/NJTsinghuaUniv(Sci&Tech),2002,Vol.42,No.6727-730数据挖掘中的数据分类算法综述刘红岩,陈剑,陈国青(清华大学经济管理学院,北京100084)摘要:分类算法是数据挖掘中的最重要的技术之一。通过类算法之一,为了适应大规模数据集的处理,数据挖对当前提出的最新的具有代表性的分类算法进行分析和比掘研究兴起之后对它又进行了改进,其中SLIQ[2]较,总结每类算法的各方面特性,从而便于研究者对已有的[3](
2、supervisedlearninginquest)和SPRINT(scal-算法进行改进,提出具有更好性能的新的分类算法,同时方ableparallelizableinductionofdecisiontrees)是比便使用者在应用时对算法的选择和使用。较有代表性的两个算法。关键词:数据挖掘;分类;关联规则1.1C4.5算法中图分类号:TP311;TP391文献标识码:A文章编号:1000-0054(2002)06-0727-04算法简介假设T为训练集,为T构造决策树时,根据In-Reviewofclassificationalgorit
3、hmsformationGain值选择作为分裂结点的属性及标fordatamining准,按照此标准将T分成n个子集。若第i个子集LIUHongyan,CHENJian,CHENGuoqingTi含有的元组的类别一致,该结点就成为决策树的(SchoolofEconomicsandManagement,叶子结点而停止分裂。而对于不满足此条件的T的TsinghuaUniversity,Beijing100084,China)其他子集,按照上述方法继续分裂直至所有子集所Abstract:Classificationisoneofthemostim
4、portanttechniquesin含元组都属于一个类别为止。datamining.Thispapersummarizesthemainfeaturesofevery算法分析algorithmbyanalyzingandcomparingavarietyoftypicalclassifierstoprovideabasisforimprovingoldalgorithmsordevelopingnew决策树分类算法与其他类分类算法如统计方effectiveones.Thesummarycanalsobeusedtoselectthesed
5、ata法、神经网络等比较起来有如下优点:miningtechniquesfornewapplications.Keywords:datamining;classification;associationrulesa)产生的分类规则易于理解。决策树的每个分枝都对应一个分类规则,因此决策树分类算法最终可以输出一个容易理解的规则集;b)速度相对较分类是数据挖掘中应用领域极其广泛的重要技快;c)准确率相对较高。术之一,至今已经提出很多算法。分类是根据数据集尽管如此,决策树算法仍然有如下的缺点:首的特点构造一个分类器,利用分类器对未知类别的先,在构造
6、树的过程中,需要对数据集进行多次的顺样本赋予类别的一种技术。构造分类器的过程一般序扫描和排序,因而导致算法的低效。其次,C4.5分为训练和测试两个步骤。在训练阶段,分析训练数只适合于能够驻留于内存的数据集使用,当训练集据集的特点,为每个类别产生一个对相应数据集的大得无法在内存容纳时程序无法运行。准确描述或模型。在测试阶段,利用类别的描述或模型对测试进行分类,测试其分类准确度。一般来说,1.2SLIQ算法测试阶段的代价远远低于训练阶段。SLIQ算法对C4.5决策树分类算法的实现方本文主要分析训练阶段。按照各种算法的技术法进行了改进,在决策树的
7、构造过程中采用了“预排特点,将其分成决策树类、Bayes类、基于关联规则类以及利用数据库技术类等几类算法进行叙述。收稿日期:2001-02-13基金项目:清华大学“九八五”基础研究项目1决策树分类算法作者简介:刘红岩(1968-),女(汉),山东,讲师。[1]C4.5是较早提出的使用最普遍的决策树分E-mail:hyliu@tsinghua.edu.cn728清华大学学报(自然科学版)2002,42(6)序”和“广度优先”两种技术。1.3SPRINT算法算法描述为了减少需要驻留于内存的数据量,SPRINT1)预排序算法进一步改进了决策树算法
8、实现时的数据结构,对于连续属性来说,在每个内部结点寻找其最去掉在SLIQ中需要驻留于内存的类别列表,将它优分裂标准的时候,都需要对训练集按照该属性的的类别列合并到每个属性列表中。