资源描述:
《决策树分类算法的时间和性能测试》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、决策树分类算法的时间和性能测试姓名:学号:Is目录一、项目要求3二、基本思想3三、样本处理4四、实验及其分析91•总时间92.分类准确性12五、结论及不足13附录14一、项目要求(1)设计并实现决策树分类算法(可参考网上很多版本的决策树算法及代码,但算法的基本思想应为以上所给内容)。(2)使用UCI的基准测试数据集,测试所实现的决策树分类算法。评价指标包括:总吋间、分类准确性等](3)使用UCIIrisDataSet进行测试。二、基本思想决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性变量上的测试,每个分支代表一个测试输出,而每个叶了节点代表类或分布,树的最顶层节
2、点是根节点。、当'需要预测一个耒知样本的分类值时,基于决策树,沿着该树模型向下追溯,在树的每个节点将该样本的变量值和该节点变量的阈值进行比较,然后选取合适的分支,从而完成分类。决策树能够很容易地转换成分类规则,成为业务规则归纳系统的基础。决策树算法是非常常用的分类算法,是逼近离散目标函数的方法,学习得到的函数以决策树的形式表示。其基本思路是不断选取产生信息增益最人的属性来划分样例集和,构造决策树。信息增益定义为结点与其子结点的信息嫡之差。信息爛是香农提出的,用于描述信息不纯度(不稳定性),其计算公式是Entropy(S)=7=1Pi为了集合中不同性(而二元分类即止样例和负样例)的
3、样例的比例。这样信息收益可以定义为样本按照某属性划分吋造成爛减少的期望,可以区分训练样本中正负样本的能力,其计算公式是Gaiii(S,A)=Entropy(S)-ET^Entr°py(^)veV(A)IS
4、・XA)是属性A的值域・S是样本集介•S、・是SA在屈件A11值等J*的样本集介三、样本处理以UCI提供的IrisPlantsDatabase为测试样本,IrisPlants共冇sepal-length,sepal-width,petal-length,petal-width四种属性,根据属性的不同分为三种:class:--IrisSetosa一一IrisVersicolour
5、一一IrisVirginica为方便实现,只取IrisSetosa和IrisVersicolour这两种植物的样例进行测试。实现该算法的样例集合如下:5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Tris-setosa4.6,3.1,1.5,0.2,Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa5.4,3.9,1.7,0.4,Iris-setosa4.6,3.4,1.4,0.3,Iris-setosa5.0,3.4,1.5,0.2,Tris-setosa4.
6、4,2.9,1.4,0.2,Iris-setosa4.9,3.1,1.5,0.1,Iris-setosa5.4,3.7,1.5,0.2,Iris-setosa4.8,3.4,1.6,0.2,Iris-setosa4.&3.0,1.4,0.1,Tris-setosa4.3,3.0,1.1,0.1,Iris-setosa5.&4.0,1.2,0.2,Iris-setosa5.7,4.4,1.5,0.4,Iris-setosa5.4,3.9,1.3,0.4,Iris-setosa5.1,3.5,1.4,0.3,Iris-setosa5.7,3.8,1.7,0.3,Iris-setosa
7、5.1,3.8,1.5,0.3,Iris-setosa5.4,3.4,1.7,0.2,Iris-setosa5.1,3.7,1.5,0.4,Iris-setosa4.6,3.6,1.0,0.2,Iris-setosa5.1,3.3,1.7,0.5,Iris-setosa4.&3.4,1.9,0.2,Iris-setosa5.0,3.0,1.6,0.2,Iris-setosa5.0,3.4,1.6,0.4,Iris-setosa5.2,3.5,1.5,0.2,Iris-setosa5.2,3.4,1.4,0.2,Iris-setosa4.7,3.2,1.6,0.2,Iris-set
8、osa4.8,3.1,1.6,0.2,Iris-setosa5.4,3.4,1.5,0.4,Iris-setosa5.2,4.1,1.5,0.1,Tris-setosa5.5,4.2,1.4,0.2,Iris-setosa4.9,3.1,1.5,0.1,Iris-setosa5.0,3.2,1.2,0.2,Iris-setosa5.5,3.5,1.3,0.2,Tris-setoss4.9,3.1,1.5,0.1,Tris-setosa4.4,3.0,1.3,0.2,Iris-se