id3改进算法研究

id3改进算法研究

ID:28151580

大小:18.18 KB

页数:5页

时间:2018-12-07

id3改进算法研究_第1页
id3改进算法研究_第2页
id3改进算法研究_第3页
id3改进算法研究_第4页
id3改进算法研究_第5页
资源描述:

《id3改进算法研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。ID3改进算法研究  摘要:ID3算法是构造决策树的一种经典算法,传统的ID3算法存在很多��题,研究者提出了多种改进算法。简要概述基于粗糙集、粒计算和分类矩阵的ID3改进算法,通过实验分析对比3种改进算法的优势和不足,并对ID3算法的应用前景提出展望。  关键词:ID3算法;决策树;改进算法  DOIDOI:/  中图分类号:TP312  文献标识码

2、:A文章编号文章编号:1672--0021-04  0引言  分类是一种重要的数据分析形式,是数据挖掘中最常用的方法之一,是提取刻画重要数据类的模型。决策树是分类方式之一,它构造简单,不需要设置参数,可以处理高维数据。决策树分类采用树的表示形式较为直观,学习和归纳的步骤简单且快速,因此很容易被人理解和接受。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项

3、目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  在决策树构造算法中,ID3算法的应用最为广泛,但同时也有许多缺点。ID3算法更倾向于选择属性值较多的属性作为根节点[1-4],对于数据量较大的数据集,该方法可能会失效[5-8],而且非类别属性越多,需要计算的时间也会急剧增加,并且分类的速度和精确度也大大降低[9-11]。此外,ID3算法对噪声数据比较敏感[12]。为了解决这些问题,近年来许多专家学者致力于ID3算法研究,提出了多种改进

4、和优化的ID3算法,使得ID3算法更加完善,效率也更提高。其中,研究较为广泛的有:基于粗糙集的ID3算法改进、基于粒计算的ID3算法改进、基于分类矩阵的ID3算法改进等。本文将介绍ID3算法的基本原理,重点介绍基于粗糙集、粒计算、分类矩阵的ID3改进算法,并分析对比3类ID3改进算法。  1ID3算法理论  ID3算法是J・RossQuinlan于1986年提出的非回溯方法,其中决策树以自顶向下递归的分治方式构造[13]。以信息论为基础,引入属性选择度量的概念,将给定训练元组的数据分区划分成最纯的,即每个分区的所有元组都属于相

5、同的类。  ID3算法采用信息增益作为属性选择度量,这里引入熵和期望信息的概念。  设数据分区为N类,属标号为a,且定义a个不同的类Mi。设Mi,N是N中Mi类元组集合,

6、N

7、和

8、Mi,N

9、分别为N和Mi,N中元组个数。则熵为:  Info=-∑ai=1pilog2  若对元组N进行元组划分,将N划分为v个子集{D1,D2,...,Dv},则Dj包含D中的元组,理想状态下,每个分区都是纯的,则期望信息为:为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学

10、生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  InfoA=∑vj=1DjD×Info  需要的期望信息越小,分区的纯度越高。  信息增益为:  Gain=Info-InfoA  2ID3算法改进  基于粗糙集的ID3算法改进  波兰数学家Z・Pawlak教授[14-16]于1982年提出粗糙集理论数据挖掘方法。基于粗糙集技术的改进算

11、法是一种完全数据驱动的归纳算法。针对ID3算法倾向于选取属性值较多的属性作为根节点的问题,翟俊海[17]等提出基于粗糙集的决策树归纳。  基于粗糙集的ID3算法描述如下:  输入:决策表,其中,C={a1,a2,...,am},决策属性D的取值为VD={d1,d2,...,dn};  输出:决策树。  算法伪代码如下:  步骤1:计算决策表关于决策属性的分类:π={X1,X2,...,Xn}。其中,Xi=[x]di,i=1,2,...,n。  步骤2:for{for{计算Xj的重要度}计算π的重要度}  步骤3:计算aj=ar

12、gmax1≤i≤msgiai)。  步骤4:计算aj在U中的划分。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。