欢迎来到天天文库
浏览记录
ID:28151580
大小:18.18 KB
页数:5页
时间:2018-12-07
《id3改进算法研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。ID3改进算法研究 摘要:ID3算法是构造决策树的一种经典算法,传统的ID3算法存在很多��题,研究者提出了多种改进算法。简要概述基于粗糙集、粒计算和分类矩阵的ID3改进算法,通过实验分析对比3种改进算法的优势和不足,并对ID3算法的应用前景提出展望。 关键词:ID3算法;决策树;改进算法 DOIDOI:/ 中图分类号:TP312 文献标识码
2、:A文章编号文章编号:1672--0021-04 0引言 分类是一种重要的数据分析形式,是数据挖掘中最常用的方法之一,是提取刻画重要数据类的模型。决策树是分类方式之一,它构造简单,不需要设置参数,可以处理高维数据。决策树分类采用树的表示形式较为直观,学习和归纳的步骤简单且快速,因此很容易被人理解和接受。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项
3、目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。 在决策树构造算法中,ID3算法的应用最为广泛,但同时也有许多缺点。ID3算法更倾向于选择属性值较多的属性作为根节点[1-4],对于数据量较大的数据集,该方法可能会失效[5-8],而且非类别属性越多,需要计算的时间也会急剧增加,并且分类的速度和精确度也大大降低[9-11]。此外,ID3算法对噪声数据比较敏感[12]。为了解决这些问题,近年来许多专家学者致力于ID3算法研究,提出了多种改进
4、和优化的ID3算法,使得ID3算法更加完善,效率也更提高。其中,研究较为广泛的有:基于粗糙集的ID3算法改进、基于粒计算的ID3算法改进、基于分类矩阵的ID3算法改进等。本文将介绍ID3算法的基本原理,重点介绍基于粗糙集、粒计算、分类矩阵的ID3改进算法,并分析对比3类ID3改进算法。 1ID3算法理论 ID3算法是J・RossQuinlan于1986年提出的非回溯方法,其中决策树以自顶向下递归的分治方式构造[13]。以信息论为基础,引入属性选择度量的概念,将给定训练元组的数据分区划分成最纯的,即每个分区的所有元组都属于相
5、同的类。 ID3算法采用信息增益作为属性选择度量,这里引入熵和期望信息的概念。 设数据分区为N类,属标号为a,且定义a个不同的类Mi。设Mi,N是N中Mi类元组集合,
6、N
7、和
8、Mi,N
9、分别为N和Mi,N中元组个数。则熵为: Info=-∑ai=1pilog2 若对元组N进行元组划分,将N划分为v个子集{D1,D2,...,Dv},则Dj包含D中的元组,理想状态下,每个分区都是纯的,则期望信息为:为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学
10、生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。 InfoA=∑vj=1DjD×Info 需要的期望信息越小,分区的纯度越高。 信息增益为: Gain=Info-InfoA 2ID3算法改进 基于粗糙集的ID3算法改进 波兰数学家Z・Pawlak教授[14-16]于1982年提出粗糙集理论数据挖掘方法。基于粗糙集技术的改进算
11、法是一种完全数据驱动的归纳算法。针对ID3算法倾向于选取属性值较多的属性作为根节点的问题,翟俊海[17]等提出基于粗糙集的决策树归纳。 基于粗糙集的ID3算法描述如下: 输入:决策表,其中,C={a1,a2,...,am},决策属性D的取值为VD={d1,d2,...,dn}; 输出:决策树。 算法伪代码如下: 步骤1:计算决策表关于决策属性的分类:π={X1,X2,...,Xn}。其中,Xi=[x]di,i=1,2,...,n。 步骤2:for{for{计算Xj的重要度}计算π的重要度} 步骤3:计算aj=ar
12、gmax1≤i≤msgiai)。 步骤4:计算aj在U中的划分。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育
此文档下载收益归作者所有