数据挖掘实验教案4

数据挖掘实验教案4

ID:44197375

大小:471.69 KB

页数:9页

时间:2019-10-19

数据挖掘实验教案4_第1页
数据挖掘实验教案4_第2页
数据挖掘实验教案4_第3页
数据挖掘实验教案4_第4页
数据挖掘实验教案4_第5页
资源描述:

《数据挖掘实验教案4》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、实验六:用K均值(K-means)算法实现聚类分析一、实验目的1、通过本次试验了解K均值算法实现聚类分析的原理;2、锻炼学生对K均值算法实现聚类分析操作水平;3、通过模拟和讨论,确保学生深刻体会K均值在整个聚类分析的重要性。二、实验内容木实验的主要内容是通过对wake软件系统的实验,了解K均值算法实现聚类分析的原理以及具体的实验步骤。三、实验设备(-)实验设备1、计算机控制系统,包扌舌计算机、wake软件等(-)软件环境1、服务器采用Java操作系统;2、操作软件:wake软件四、实验内容和步骤用“Explore严打开刚才得到的“bank.arff”,并切换

2、到“Cluster”。点“Choose”按钮选择“SimpleKMeans”,这是WEKA中实现K均値的算法。点击旁边的文本框,修改unumClusters"为6,说明我们希望把这600条实例聚成6类,即K=6O下而的“seed"参数是耍设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给岀的K个簇屮心的位置。我们不妨暂时让它就为10。如下图所示:选中“ClusterMode”的"Usetrainingset”,点击“Start”按钮,女口卜图所示:cSuppliedtestswtSet.・・Percentag©split%66Classest

3、oclustersevaluationQTom)pep▼[3Storeclustersforvisualization■■■■观察右边"Clustereroutputv给出的聚类结果。也可以在左下角“Resultlist”屮这次产生的结果上点右键,“Viewinseparatewindow”在新窗口中浏览结果。结果如下图所示:kMeansNumberofiterations:€Withinclustersumofsquarederrors:1604.7416693522332Missingvaluesgioballyreplacedwithmean/mc

4、eClustercentroids:AttributeFullDara(€00)Cluster#0(77)1(76)2(77)3(147)4(106)5(117)age42.39537・129944.276348・311739.115639.301947.6667sexFEMALEFEMALEFEMALEFEMALEFEMALEMALEMALEregionINITER^CITYIWER^CITYRURALINNER-CITYTOWINNER-CITYTOWNincome27524.031223377.760427772.374627668.439624047

5、.386526359.835419.2842marriedYESNOYESYESYESYESNOchildren0321002carNONONONONOYESYESsave_actYESYESYESNOYESNOYEScurrent_actYESYESYESYESYESYESYESmortgageNONONONONOYESNOpepNONONOYESNOYESYESClusteredInstances077(131)176(13%)277(13%)3147(25%)4106(18%)结果解释:首先我们注意到结果中有这么一行:Withinclustersumo

6、fsquarederrors:1604.7416693522332这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。也许你得到的数值会不一样;实际上如果把“seed”参数改一下,得到的这个数值就可能会不一样。我们应该多尝试几个seed,并采纳这个数值最小的那个结呆。接下来"Clustercentroids:"之后列出了各个簇中心的位置。对于数值型的属性,簇屮心就是它的均值(Mean);分类型的就是它的众数(Mode),也就是说这个属性上取值为众数值的实例最多。对于数值型的属性,还给出了它在各个簇里的标准弟(StdDevs)o最后的uCluster

7、edInstances,,是各个簇中实例的数目及百分比。为了观察可视化的聚类结果,我们在左下夕"Resultlist”列出的结果上右击,点"Visualizeclusterassignments”,如下图所示:Resultlist(right-clickforoptions)DeleteresultbufferLoadmodelSavemodelVisualizetreeViewinmainwindowViewinseparatewindowSaveresultbufferClusteredIn;分77(76(77(147(106(117(Re-evalua

8、temodeloncurrenttestsetVis

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。