资源描述:
《数据仓库课程设计报告样本.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。GDOU-B-11-112广东海洋大学学生实验报告书(学生用表)实验名称关于福布斯排行榜的数据挖掘课程名称数据仓库设计与应用课程号学院(系)信息学院专业信息管理与信息系统班级信管1124学生姓名刘霆钧学号实验地点科技楼11月28赵小缘实验日期日关于福布斯排行榜的数据挖掘一、实验目的(1)了解数据挖掘中的聚类分析;(2)充分了解IBMSPSSModeler的数据挖掘能力;二、实验目标(1)理解聚类分析的概念;(2)对福布斯排行榜的数据(源数据来源:福布斯中文网,经过加工整理)进行聚类分
2、析,掌握SPSS软件进行数据挖掘的常见步骤;(3)了解聚类分析中各个数据模型的内涵和意义。三、实验内容及结果1.用自己的话概括数据挖掘中的聚类分析概念。答:聚类分析是将一组对象分成若干类,想同类中的对象具有相似性,不同类中的对象相异性较大。聚类与分类不同的是后者不依赖给定的标准给对象进行分类。2.使用”福布斯排行榜”数据进行数据挖掘分析。根据至福布斯企业排行榜50强在Excel表格中计算5年各自的平均销售额、平均利润、平均资产和平均市值,并在IBMSPSSModeler中用”Excel”节点导入数据。图1”-总汇”节点预览资料内容仅供您学习参考
3、,如有不当或者侵权,请联系改正或者删除。图2”多重散点图”编辑窗口在进行完X轴及Y轴的设置后,运行得到如图3显示的多重散点图。这一结果反映了从到能进入福布斯排行榜前列对其规模、盈利能力和在资本市场影响力的要求不断提高。图3-福布斯排行榜50强(平均)金额变化趋势此”Excel”节点的数据来自福布斯排行榜100强,在图4编辑窗口中,选择过滤”排资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。行”和”企业(名)”,以方便后面的聚类分析。图4原始数据过滤在”Excel”节点之后建立”类型”节点,如图5所示,六个字段的角色均设置为”输入”
4、,其它参数为默认。图5”类型”节点编辑窗口资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。图6”类型”节点预览建立”K-Means”节点。如图7所示,编辑窗口中,在”使用分区数据”一栏中打钩,其它选择默认。点击运行即生成”K-Means”聚类分析。图7”K-Means”模型编辑窗口资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。分析K-Means聚类分析。从图8中能够看到,聚类分析将源数据分成了五个聚类,每个类占总数的比例分别为45%,19%,14%,11%和11%。其中,对分类字段的依赖性依次由行业、国家、资产、销
5、售额、市值、利润逐渐递减。图8”K-Means”模型聚类分析结果查看K-Means模型。利用”输出”选项卡中的”表”节点对模型的数据进行查看,如图9。在表中,能够看到每个企业所属的聚类,表中最后一列”$KND-K-Means”是指每一个元素距离类中心的距离,距离越小,表示效果越好。图9表节点查看”K-Means”模型资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。图10”分析分布图”编辑窗口分析分布图。如图11所示,从分布图中能够看到每个聚类所占的比例和个数,以及该类所拥有的国家。如果想查看”行业的聚类情况,能够在图10的编辑窗口
6、中,交叠字段的”颜色”下拉栏中选择”行业”。图11”分析分布图”查看聚类结果资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。图12”集合”节点编辑窗口除了对聚类分析模型进行分析外,还能够对源数据直接分析。在这里,使用”图形”选项卡下的”集合”节点对原始数据进行分析。运行该节点流,既可获得如图13的分布图。图中横轴表示”利润”的数额,纵轴表示在横轴上所有该”利润”数额对应的企业所具有的”市值”金额之和。图13”集合”节点流分布图查看原始数据