资源描述:
《多变量决策树算法的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于超平面的多变量决策树算法的研究Discussionofmultivariatedecisiontreealgorithmonconstructinghyper-plane张四平I王梅'余维'湖南信息职业技术学院计算机工程系410200SipingZhang.Wangmei,SheWeiDepartmentofComputerHunanCollegeofInformationChangsha,410200,China摘要:如何在测试节点里构造一个恰当的分割超平面是构造决策树的关键,与单变量决策树不同,多变最(倾斜)决策树可以找到与特征轴不垂直的超平面。
2、本文将从儿何学角度说明构造测试节点的过程,提出了一种两阶段决策树的算法。关键字:超平面;两阶段;决策树Abstract:Howtoconstructthe"appropriate"splithyper-planeintestnodesisthekeyofbuildingdecisiontrees.Unlikeaunivariatedecisiontree,amultivariate(oblique)decisiontreecouldfindthehyper-planethatisnotorthogonaltothefeatures9axes.Inthis
3、paper,were-explaintheprocessofbuildingtestnodesintermsofgeometry.Basedonthis,weproposeamethodoflearningthehyper-planewithtwostages.Keywords:hyper-plane;twostages;decisiontree;中图分类号:TP301.6文献标识码:A文章编号:1.引言决策树冇着许多不同的应用,其中包括诊断学里面的长度衰退⑴、分等级的多级标签的分类⑵等。在机器学习和数据采集方面,决策树已经成为一种最广泛的模型。一些决策
4、树分类器的算法,比如ID3⑶,C4.5⑷,CART⑷等,经常被作为评价其他分类器性能的基准。它之所以流行,是因为其形式简单、判断迅速、解释容易和精确度高。、2.两阶段决策树算法2.1两阶段构造超平面构造多变量决策树的中心问题是,在每个测试节点内对于连续的属性如何研究分割超平面函数w內+w2x2+…+wnxtl+threshold{阈值)=0(1)这里的X二(孟,応…心1)是一个图形向量,它是由一个常数和n个描叙实例的特征组成的。W'=(附,w2,…,%吟1)是一个X的参数向量,也可以称为权向量(本文中假设『是一个单位向量)O为了研究在每个测试决策树节点内
5、构造超平而的过程,首先调整方程式1vv,Xj+vv2x2HFwnxn=threshold权向量『二(弦,旳…略)可以看作是用函数2构造的超平而的法线方向,可以将寻找超平而函数2的过程分为两个步骤:首先找出标准向量『,然后再找出参数阈值。使『中至少冇一个参数不等于0,得到的超平面就会向特征轴倾斜:使旷中只冇一个参数不为0,例如Wr=(0,0,…,陥・・・,0),得到的超平面就会与特征轴垂直。显然,如果在每个超平面的附中只有一•个参数不为0,构造的决策树将会退化为单变量树。为了深入研究这个问题,首先我们作了一•个定义1。定义1设V=(vhV2…%丿(单位向量
6、)是实例空间"内的一个方向向量,a=(ah玄2…an)是实例空间P内的一点。Vd,如果Q=工“4片,我们就说日是臼的卩成分。根据定义1可知,如果把y当作标准轴,那么日就是y轴上的值。命题1设”是用函数(2)构造的分割超平而,假设/和〃的交点的标准成分是r,那么r=threshold(阈值)。证明设a=(ah出,…,臼丿是实例空间内的一点,X/ci^P,a的标准成分b=Y厶—1勺11设/二(aha2,…,曰,丿是从日到标准轴的映射点,得到“工国/“二工心⑶设t=(tht2,…,岛丿是力和实例空间戶的交点,因为旷是实例空间门内的标准向量,所以2臼。联合(3)
7、式,nJ以得到:根据方程式(2),得到v=threshold(阈值)。在权重向量『内,如果只有一个参数不是0,例如『二(0,0,…,吟•・•,()),那么命题1中法线方向是准确的一个实例空间特征。因此,单变量决策树满足命题1。从这个角度來看,框架是单变量决策树的延伸。此外,一旦发现有法线方向,对以简单地解决超平面阈值:计算每个实例的标准成分作为一维空间值,然厉根据一些标准(如基尼),寻找作为函数(2)阈值的最佳分割阈值。2.2两阶段决策树算法通过在2.1内的分析,寻找超平而函数的过程可以划分为两个阶段,构造两阶段决策树算法,这种算法通过两个阶段为每个测试
8、节点构造超平面,如图1。除了步骤2和3,此算法和其他决策树算法没有什么区别。步骤