clementine作业

clementine作业

ID:22207757

大小:560.00 KB

页数:10页

时间:2018-10-27

clementine作业_第1页
clementine作业_第2页
clementine作业_第3页
clementine作业_第4页
clementine作业_第5页
资源描述:

《clementine作业》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘决策树分析报告经济管理学院管理科学与工程专业1206122353麻小龙问题:现搜集整理到某大型商场的顾客和商品的相关信息,通过SPSSClementine软件建立决策树模型进行数据挖掘分析,找到什么类型的顾客将购买什么类型的商品(比如:是否购买健康食品),顾客在购买某种商品的时候是否还有可能购买其他某几种商品。解决思路:在处理该问题中,我使用了关联分析、决策树分析,具体分析解决过程如下:关联分析是指如果两个或者多个事物之间存在一定的联系,那么其中一个事物就可能通过其他事物进行预测。它的目的就是挖掘数据之间隐藏的相互关系。本题是针对某大型商场的购物资料对数据进行分析。为了找

2、到商品在出售时是否存在某种联系,我们将使用关联分析方法;另一方面,为了得到购买某种商品的顾客特征,我们将采用决策树的方法对顾客分类。步骤一:读入数据。该模型的数据存储为BSAKETS1n,我们在选择面板选择可变文件节点作为数据读入节点,双击该结点进行编辑,加入数据存储文件。如下图所示:步骤二:关联分析从数据源读入数据后,接下来就需要根据要进行的分析对字段进行设置。关联分析是分析多个量之间的关系,所以需要分析的字段既设置为模型的输入又设置为模型的输出,对字段的设置采用类型结点。2.1设置数据字段格式。在选择面板选择类型结点,并将其连接到数据流中。因为我们的分析是对商品进行的,与顾客

3、的个人信息无关,所以在类型结点中将顾客个人信息的字段的方向设置为无,其他商品字段的方向设置为双向。同时我们也将读入字段类型和字段取值。如下图所示:2.2生成关联分析数据流。在选择面板中的建模目录中我们选择GRI结点加入到数据流中。执行该数据流,它的结果将在管理器的模型栏中以与模型同名的结点显示,右键选择浏览该结点,如下图所示:分析结果如下:该结果数据显示了各种商品之间的关系,这个表的每一行表明了购买某种商品的时候还有哪些商品有被购买的可能性,它是基于关联分析中的支持度和置信度来分析的。支持度越大,说明同时被购买的可能性越大。比如我们就第一行来分析,支持度为3.0%,置信度为96.

4、67,顾客在购买cannedveg时有可能会同时购买freshmeat,frozenmeal,beer这三种商品。其他行的相关信息,我们用同样的方法进行分析得出结果。步骤三:图形化显示各个商品之间的关系我们除了用模型外,还可以用图形目录下的网络结点。选择网络结点将其连入数据流中,此时对网络结点的设置如下:在plot面板中选择“仅选择真值标志”栏,这可以帮助我们简化输出网络,执行结果如下图所示:其中该图中各色的结点代表了不同种类的商品,任意两点之间连线越策表明这两点之间的关系越强烈,这也正说明购买其中某件商品时,另外一个很有可能也会被同时购买。我们还可以通过改变浮标值设置不同的显示

5、,当浮标值越大时候网络图将显示关系越强烈关系的点。如下图所示:分析结果如下:就上述网状图,各个节点之间有连线说明两线两端的商品在购买时可能被购买。连线的粗细也表面关系的密切程度,即同时被购买的可能性的大小。在本问题中,我们分析当浮标设置在122时候这种情况,此时购买fish时很大可能会购买fruitveg,购买confectionery时很有可能购买wine,其中cannedveg,beer,frozenmeal这三种商品时因为三者之间存在密切联系,所以购买其中一种时,其他两种被购买的可能性很大。同样,当浮标的值改变时,我们可以用同样的方法来分析数据之间的关系。步骤四:用决策树来

6、分类分析。决策树(decisiontree)一般都是自上而下生成的。每个决策或者事件(自然状态)都可能引出两个或者多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图。本问题中我们运用决策树对购买某样商品的客户进行分类,通过分析某个顾客的个人信息判断怎样的人将购买健康食品。在决策树建模时我们需要设置一个导出结点,模型根据样本在该结点的不同取值构造出决策树。4.1将导出结点连接到类型结点,如下图所示:4.2设置导出结点的属性,如下图所示:这里我们命名该结点为Health_food,在导出为栏中我们选择标

7、志,这表面新生成的Health_food字段将存储两值类型的数据。在真值和假值栏分别填写新字段的两种数据值,其中真值表示当条件满足时该字段的值,假值表示当条件不满足时该字段的值。对判断条件的设置我们可以通过单击Truewhen栏右边的按钮进行。在表达式构建器中我们可以选择数据的任一字段,通过设计表达式建立结果为真时的条件。这里我们设置表达式为fruitveg==’T’andfish==’T’,这表明当顾客买了fruitveg和fish时该顾客便购买了健康食物。如下图所示:4.3设

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。