欢迎来到天天文库
浏览记录
ID:46711179
大小:67.50 KB
页数:6页
时间:2019-11-27
《改进ID3算法及原算法比较探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、改进ID3算法及原算法比较探究摘要:本文对数据挖掘算法中的决策树算法进行了深入的分析和研究,在研究ID3算法的过程中总结了该算法的优缺点,同时针对原算法计算量大计算复杂的缺点进行改进,同时对改进的算法过程进行描述阐述其优于原算法的特点。关键词:ID3算法原算法中图分类号:TP301.6文献标识码:A文章编号:1007-9416(2013)02-0108-021前言ID3算法属于数据挖掘技术,所谓的数据挖掘(DataMining,简称DM)技术是一种进行大量数据深度挖掘、剖析的一种技术。它能够在事先
2、收集好的或是已经积累多年的大量的可以是不完整或是模糊的不确定的具有噪声的数据内部,研究并深度找出人们经常忽略的及隐含的但很可能是非常重要的数据信息的过程。数据挖掘的方法和技术可以包括公式发现、模糊数学方法、归纳学习法和数据分类等多种方法⑴,而在数据分类技术中最常用和经典的方法就是决策树分类方法,该方法的早期算法产生在上个世纪的60年代,之后经过不断的发展到现在已经研究出好多种常用的决策树算法了,例如典型的决策树ID3算法、分类与回归树CART算法以及将ID3算法进行改进的决策树学习算法C4.5等等
3、,而在本文中主要研究的是ID3算法及改进后的应用研究。2ID3算法的基本思想在数据挖掘技术中的ID3算法主要是建立用来建立决策树,并能通过建立的决策树来分析判断隐藏在数据后面的能对信息结果起到决定作用的重要因素,它是由CLS发展而来的。ID3算法在建立决策树时首先要进行树的根节点和子节点的选取,主要选取方法是根据计算每个给定属性的信息燔⑵的值按照它们的下降程度进行选取,此方法在很多实际分类的应用上进行了广泛的应用,包括对学生成绩的分析中。ID3算法的核心点主要在如何选择要建立的决策树的所有的分裂节
4、点上。首先要计算出每个给定属性的信息增益值,在得出的信息增益值中最大的属性先选作分裂节点属性的备选项,这样除了根节点对其他节点进行测试的时候得到对于训练样本来说类别信息是最大的。然后,使用刚刚确定的分列属性中的备选项属性进行训练样本集合划分,将其划分成相应的子集合系统,这样得到的爛的值是最小的,最后通过求得每个属性的信息增益进行比较,找出最大的信息增益属性。3ID3算法的优缺点在整个建立决策树的过程中,ID3算法的特点很突出具备它自己的优缺点下面分别详细的介绍。3.1算法优点在众多的分类算法中,决
5、策树算法已经深入的被研究并且被广泛的应用到各个领域中。该算法被作为较为通用的分类函数逼近算法应用,它本身存在很多的优点,分别为:3.1.1生成的规则容易理解ID3算法是通过树形结构中的每个分支代表一个分类来查看最终的分类结果的,在分类的时候才用判断的形式进行分类,所以能形成用的形式表示出来的规则。这种“如果…就…”规则很容易让人们接受,对现实世界描述的表示形式非常接近自然语言。而在算法的实际应用中,这种特点是非常重要的。3.1.2容易确定属性之间的重要程度在建树的过程中要根据癇值和信息增益值来确定
6、根节点和每个叶子节点,通过癇计算的结果对属性进行分类。通过整个分类的决策树形结构图中就会很容易的观察出哪个属性比较重要,就是容易区分出属性的重要性了。因为,在建立的决策树中从根节点开始一直到最后的叶子节点都是按照属性的重要性进行选取的,节点越高越重要如果同一层属性的重要程度是一样的。3.1.3计算量少运算速度高ID3算法采用的是自上而下的方法进行搜索,在进行空间搜索时确保搜索该部分所用的测试次数是最少的,分类速度也是最快的。大大的提高了工作效率,速度也提高了很多。3.2算法的缺点(1)通过信息嫡的
7、办法来选择所有属性中的最优属性,可能会产生出取值很大但是属性并不一定是最重要的,例如学生的性别属性。(2)建立的决策树的节点之间联系比较松散,这是由属性特征值决定决策树节点的原因。(3)ID3不容易去除噪声,该算法对噪声比较敏感,有时取错特征值或给错类别。(4)ID3算法会随着训练集的改变建立的决策树发生改变,对于一些可变的数据集合建树是不太合适的。(5)算法复杂也是缺点中最大的,计算每个属性的信息增益值的计算量是非常大的,通过计算的值进行分裂点选取不只耗费了大量的时间、资源而且还很占用机器内存,
8、重要的选取出的属性未必是最优的。4改进ID3算法的研究及应用本文将粗糙集理论中的决策协调度引入到ID3算法中,进行选定分裂点过程的改进不仅能够得到简单的决策树,而且是整个建树过程简化大大降低了原有算法的复杂度。过程是在整个决策系统中随机选取出某些规则,通过选出规则的前驱和后继条件相同的几率判断它们的相互协调的几率。这样可以看出起到决策作用的那些属性对可以作为条件属性到底有多少依赖程度,完全可以通过决策协调度表示岀来。所以,可以通过决策协调度度量在构造决策树时选取的属性。决策协调度的
此文档下载收益归作者所有