欢迎来到天天文库
浏览记录
ID:46711188
大小:65.50 KB
页数:3页
时间:2019-11-27
《改进ID3决策树算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第27卷第14期21年7月01甘肃科技GnuSineadTcnlascecneho12f7.IV01・4.21,以・01改进I3决策树算法一一S-DDS13算法蔡贺,张摘睿(.1兰州城市学院传媒学院,甘肃兰州700;・3002中国人民银行兰州中心支行科技处,tt肃兰州700)300要:从分析I3D决策树算法及解析人手,引入屈性样本结构相似度概念,构建了样本结构相似度模型,以该模并型和属性的信息增益共同作为决策树内部结点的选择标准。改进S-D决策树算法,SI3着眼于决策树非叶结点的选择标准的优化,了原始I3继承D决策树算法的优点,并在多值偏向性
2、的修正、决策树的大小控制及分类预测性能等方面取得了积极的改进o关键词:3算法;ID信息增益;样木结构相似度;SI3算法S_D屮图分类号:P1T32I3D决策树算法作为一种具有重耍理论价值和较多的属性的影响,ifU无法确实的反映客观的分从类情况。由此可以得知,属性的关系复杂且重要在彩响力的数据挖掘算法己经广泛应用于数据分类和模型研究等各个领域。I3决策树算法引入了信息D论中的概念,将信息增益作为选择非叶节点的标准,通过对样本数据属性的选择口顶向下的分类并构造决策树,从而利用决策树完成对整个数据源的检索及统计。由于属于智能决策的一部分,3策树I决
3、D算法同样可以用于数据分类,各种专家系统、融如金度不确定的情况下构建的I3D霾吟軸嬖净鑒又匾?的非多值属性的趋势。为提高分类预测的准确性,针对I3D决策树算法引入样本结构相似度模型对原算法的多值偏向性问题进行改进。2SS—13决策树算法简介D信息服务、气象服务及网络智能搜索等方面。虽然I3决策树算法已经得到了广泛应用,D但在样木数据集和实际数据集中一般情况下都存在一个共同的分类属性,该属性具有若T个不同的属性值,所有的数据元组都将指向这个分类属性屮是该算法还存在一些缺陷和可以改进的方面。通过对I3D决策树算法建立决策树的过程屮所存在的多值偏向
4、问题的分析和探索,提出了一种基于信息增益和样本结构相似度共同作用的属性判断指标,通的各个属性值。从样本数据集屮列的角度來看,由于数据元组各个属性屮属性值的随机性使得这些数据结构具有很大的不同,从而使得每个属性列在表面上看起來往往是杂乱无章的。通过经验判断可以看出其中有一部分属性间没有很明确的联系,但还是有一些属性间确实具有很明显或者很直接的关联过改进指标来修正多值偏向给I3D决策树算法的准确性带来的彩响。其实现过程对于在继续改进和丰富I3D决策树算法的判断指标和提高决策的准确性具有一定的现实价值和参考价值。关系。因为I3D决策树算法只是通过划
5、分前厉信息量之间的差值大小(即信息增益)为分类依据,并没有考虑到描述属性和分类属性间的联系关系,以,所提出了一种改进的I3决策树算法一一s—DDSI3决策树算法。sjD算法将描述属性和分类属性问的关联S31I3决策树算法的不足DI3D决策树算法选用当前层次信息增益最大的属性來作为节点进行分支判断,而每次信息增益的计算很人程度上会受到多值偏向性问题的影响,即取值较多的属性有优先选取的倾向。这就难以判断得到的测试属性究竞是因为本身比较重要还是由于属性取值较多的缘故而被算法作为节点属性而选择的。关系引入到了属性选择的步骤中与信息增益联合使用,这样的
6、处理能够帮助一些与分类属性在结构上相似或联系比较紧密的屈性能够在描述属性选择的过程中得到更多的祛码,而能够在一定程度上减从如果数据集屮的不同属性间关系较为复朵,属性间联系的强弱关系乂没有明确的判断方法时,信息增益的计算将很大程度上受到样本数据集中取值少或克服一些联系较紧密的描述属性由于属性值偏少而造成信息炳的减少不足导致的在选择中被忽略的问题,同时还兼顾信息增益较大的属性,使得这些32甘肃科技第27卷属性不被样本结构相似度所掩盖。引入的样本结构相似度模型是一个用来度量样本数据集中的描述属性的属性值与分类属性的属性值之间的空间结构重叠性的数值指
7、标,样本结构相似度越大说明该描述属性的分类样本数在物理上越趋近于分类属性,反属性c在样本数据集中的结构为V=。由该描述属性和分类属性的值所构成的数据结构为:VuZ则越不同。计算主耍用到的数值包括:I总的()样本数据元组数;2分类属性的属性值;3描述()()属性的每个屈性值;4结构相似矩阵。通过相应()的计算得到的数值作为一个加权因子参与到描述属性的选择过程中来完成对I3D决策树算法的改进。。以描述属性的取值为行,分类属性c的取值为列,可以通过得到一•个凡m列行的矩阵A,照E的顺序定位矩阵A的行顺序,按按3属性结构相似矩阵计算样本结构相似度需耍
8、在样本数据集上建立一照c的顺序定位矩阵A的列顺序,并记矩阵A屮的口为屮的取值为c时且“的取值为时数据元组的样本数量,到将U直V中的所有数据自上而下进行遍历,统计样本
此文档下载收益归作者所有