欢迎来到天天文库
浏览记录
ID:37329896
大小:404.22 KB
页数:10页
时间:2019-05-21
《决策树实现水质分类预测建模》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、决策树实现水质分类预测测建模测建模教学案例文件状态:文件标识:DMS_03_002[]草稿当前版本:V01.00.000[√]正式发布作者:教培部[]正在修改参与者:研发部[]作废完成日期:2010-03-18太普软件(www.tipdm.com)数据挖掘技术及应用(教学案例)文档编号:DMS_03_002目目目录录录录1.1.1.概述............................................................................................32.2.2.案例
2、描述.....................................................................................33.3.3.建模过程.....................................................................................4绝密太普数据挖掘套件(TIPDMSuite)试用网址:www.tipdm.cn第2页共10页1.概述从数据中生成分类器的一个特别有效的方法是生成一颗决策树。决策树表示法是应
3、用最广泛的逻辑方法。目前生成决策树方法的算法主要有三种:CART算法,CHAID算法,C4.5算法。其中C4.5算法是发展的比较完善也是比较简单易懂的一种决策树算法。C4.5算法是Quinlan的ID3算法的改进版本,该算法从树的根节点处的所有训练样本开始,选取一个属性来区分这些样本。对属性的每一个值产生一个分支,分支属性值的相应样本子集被移到新生成的子节点上,这个算法递归地应用于每个子节点上,直到节点的所有样本都分区到某个类中,到达决策树的叶节点的每条路径表示一个分类规则。这样自顶向下的决策树的生成算法的关键性决策是对节点属性值的选
4、择。选择不同的属性值会使划分出来的记录子集不同,影响决策树生长的快慢以及决策树结构的好坏,从而导致找到的规则信息的优劣。C4.5算法的属性选择的基础是基于使生成的决策树中节点所含的信息熵最小。所谓熵在系统学上是表示事物的无序度。不难理解熵越小则记录集合的无序性越小,也就是说记录集合内的属性越有顺序有规律,这也正是我们所追求的目标。2.案例描述根据温度、盐度、PH值和溶解氧的含量,建立BP神经网络预测模型,实现对水质进行评价,采集的样本数据如下:广州太普软件科技有限公司第3页共5页数据挖掘技术及应用(教学案例)文档编号:DMS_03_0
5、023.建模过程本案例通过太普数据挖掘套件(http://www.tipdm.cn)实现建模过程。更多关于此软件工具的介绍详见:http://www.tipdm.com数据导入绝密太普数据挖掘套件(TIPDMSuite)试用网址:www.tipdm.cn第4页共10页数据挖掘技术及应用(教学案例)文档编号:DMS_03_002选择温度(T)、盐度(S)、PH值(PH)、溶解氧(DO)和水质类别(TYPE)等样本属性(最后一列为输出项),以及样本数据范围,导入样本数据到当前算法操作区。参数设置二元分割:构建树时是否使用二元分割。
6、置信因子:用于树修剪的置信因子,值越小,树修剪耗费越大。最低叶片数:最低叶片数。减少错差剪枝:是否用减少误差修剪来替代C4.5修剪。提升子树:修剪时是否使用提升子树操作。使用拉普拉斯算子:是否使用拉普拉斯算子进行平滑。交叉验证k-折交叉验证,指将样本集随机地分成k个互不相交的子集,每个折的大小大致相等。利用k-1个训练子集,对给定的一组参数建立回归模型,利用剩下的最后一个子集的MSE评绝密太普数据挖掘套件(TIPDMSuite)试用网址:www.tipdm.cn第5页共10页数据挖掘技术及应用(教学案例)文档编号:DMS_0
7、3_002估参数的性能。根据以上过程重复K次,因此每个子集都有机会进行测试,根据k次迭代后得到的MSE平均值来估计期望泛化误差,最后选择一组最优的参数。模型验证信息:J48prunedtree------------------T<=23pH<=6.7:Ⅲ类(38.0)pH>6.7T<=9.6:Ⅲ类(34.0)T>9.6pH<=8.8S<=11.2:Ⅲ类(22.0)S>11.2DO<=2.9:Ⅲ类(20.0)DO>2.9S<=40.3DO<=6:Ⅱ类(20.0)DO>6T<=15:Ⅱ类(15.0)T>15S<=25:Ⅱ类(14.0)S
8、>25S<=29.2T<=19.7pH<=7.6:Ⅱ类(9.0)pH>7.6pH<=8.1:Ⅰ类(20.0)pH>8.1:Ⅱ类(7.0)T>19.7:Ⅱ类(11.0)S>29.2:Ⅱ类(11.0)S>40.3:Ⅲ类(12
此文档下载收益归作者所有