决策树分析-刘夏璐

决策树分析-刘夏璐

ID:45580637

大小:54.23 KB

页数:6页

时间:2019-11-15

决策树分析-刘夏璐_第1页
决策树分析-刘夏璐_第2页
决策树分析-刘夏璐_第3页
决策树分析-刘夏璐_第4页
决策树分析-刘夏璐_第5页
资源描述:

《决策树分析-刘夏璐》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、题目:借助数据挖掘软件Clementine(8.0)进彳亍地下燃气管网安全评价的分析与评价。已知:八个影响因索、107条评价记录,其取值及定义见相应文件。决策树分析作业:对107个样本进行安全级别的样本进行决策树分析,把聚类得到的20个样本作检验样本,表出决策树的推理结果和推理正确率。一、决策树分析原理:决策树分析就是以实例为基础的归纳学习算法,是从一组无次序的、无规则的实例屮推理出树表示形式的分类规则。我们这里采用的C5.0算法是基于经典的ID3算法的,是从ID3算法发展而来的。这次的决策树分析作业也是采用理论分析与实际操作试验对照的办法进行,因此,作业报告也将从

2、理论分析与试验分析两大方而进行论述:ID3算法的前身就是CLS算法,CLS算法的过程:首先找出最冇判别力的因素,把数据分成两个子集,每个子集又选择最有判别力的因素进行划分,一直到进行所冇子集仅包含一个类型为止,最后得到一棵决策树。而ID3算法的主算法流程可以描述如下:1•从训练集小随机选取一个大小为W的子集;2.用建树算法对当前窗口形成一棵判定树;3.对训练集屮除窗口外的其他样本用所得的判定树进行类别判定,找出出错的例子;4.若存在错判的例子,就把错判的例子加入窗口,转2;否则就结结束。而建树算法为:1.对当前的例子集合,计算各特征的互信息;2.选择互信息最大的特征

3、人;3.把在人处取值相同的例子归于统一子集;人有几个特征就得有几个子集;4.对既含正例又含反例的子集,递归建树;5.若子集仅含正例或反例,对应分枝分别标上P或N,返回调用处。互信息的计算就是算法里而的关键和工作量最大的部分。互信息的表达式为:/((/IV)=/7((/)-/7(t/IV),其中H(U)是信息爛,H{UW)是条件爛呗)巧呱)叫(爲H(UV)=XP(Vj)XP(UiWj)^Ji当了解ID3算法的基本原理Z后,就可以针对试验进行进一步的设计。我们的哋下燃气管网安全评价的分析与评价”系统,评价的时候就冇四个等级评价的输岀,也就是要分成4类,比起上面的算法就

4、是计算建树的时候就需要计算四个输出的等级的互信息。其实,在采用Clementine软件辅助哋下燃气管网安全”评价的时候,决策树的具体算法软件己经给出封装实现了,只需耍从试验耍求出发操作设置参数即可。二、Clementine软件辅助作业过程以及结果分析:采用Clementine软件辅助“地卜•燃气管网安全”评价作业过程述是跟Z前的作业一样,需耍根据需耍设置参数,调整参数进行试验。要注意的是,在建模Z后,输出分析结果时要加入“输出”屮的“分析”,我们的参数设置先釆用系统默认值:107原始样本分析决策树模型聚类20样本.sav类型分析图表1:流程图■决策树建模的思路是先以

5、107个原始数据为学习样本建立一棵判定树,再根据聚类得到的20个样本作检验样本,求导出决策树的推理结果和推理正确率•107个样本建树:$C-VAR00009节盘0类别%n1.0002.8043■2.00026.16828■3.00042.05645■400028.97231总计100.000107r~~VAR00006<=0.500类别%n1.0000.00002.0007.31763.00054.878454.00037.80531总计76.63682节点1I曰VAR00004丄书点e类别%n1.00012.0003■2.00088.00022■3.0000.00

6、00■4.0000.0000总计23.36425>0.500丄节点2类别%n1.0000.0000■2.0000.0000■3.00014.2865■4.00085.71430总计3271035IEJ<=0.500VAR00005丄节点5类别%n1.0000.0000■2.00012.7666■3.00085.10640■4.0002.1281总计43.92547I>0500VAR00008<=0.500>0.500I节点3类别%n1.0000.0000■2.0000.0000■3.00075.0003■4.00025.0001总计3.7384<=0.000I节点4

7、类别%n1.0000.0000■2.0000.0000■3.0006.4522■4.00093.54829总计28.97231>0.000节点6类别%n1.0000.0000■2.0005.4052■3.00091.89234■4.0002.7031总计34.57937类别%n1.0000.0000■2.00040.0004■3.00060.0006■4.0000.0000总计9.34610Iu节点7VAR00005<=0.000>0.000节点8类别%n10000.0000■2.0000.0000■3.000100.0006■4.0000.0000总计5.60

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。