使用SASEM的数据挖掘实例.doc

使用SASEM的数据挖掘实例.doc

ID:57181018

大小:2.19 MB

页数:95页

时间:2020-08-05

使用SASEM的数据挖掘实例.doc_第1页
使用SASEM的数据挖掘实例.doc_第2页
使用SASEM的数据挖掘实例.doc_第3页
使用SASEM的数据挖掘实例.doc_第4页
使用SASEM的数据挖掘实例.doc_第5页
资源描述:

《使用SASEM的数据挖掘实例.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、使用SASEM的数据挖掘实例:第二版(译者:李保坤)西南财经大学2008年10月16日目录第一章 SASEM介绍启动 SASEM 建立初步的项目和流程图(Project和Diagram)了解界面组件数据挖掘和SEMMA通过SAS文件夹(SASLibraries)连接数据第二章 预测建模问题创建过程流流程图(ProcessFlowDiagram)数据准备和调查拟和和比较可行模型产生和使用打分程序使用报告(Reporter)节点生成报告第三章 变量选择 变量选择介绍 使用变量选择(VariableSelection)节点第四章 聚类工具 问

2、题聚类方法回顾第五章 关联分析 问题第六章 链接分析 问题考察网络日志数据第一章SASEM介绍1.1启动SASEM在SAS命令条键入miner.按回车键或者点击命令条旁的“√”号。或者在主菜单下选择1.2建立初步的项目和流程图EM按项目和流程图组织它进行的多个数据分析。每一个项目可以包括几个流程图,每一个流程图可包括几个数据分析。通常一个流程图的分析只基于一个数据集合。遵照以下步骤创建一个项目。1.选择FileðNewðProject….2.键入项目名(例如,MyProject).3.如果有必要点选Client/serverprojec

3、t.(如果该项目不用某服务器的数据集合就不要点Client/serverproject。)注意:要建立Client/serverproject,你必须联通一个运行同样版本EM的服务器才行。关于如何创建client/server项目,请参照“GettingStartedwithSASEnterpriseMiner”,或寻求在线帮助。4.如有必要可改变项目存放地址,方法是直接键入或选择Browse….5.选择Create.项目被建立。该项目下面有一无标题流程图“untitled”1.选择流程图标题,并键入一新名,如MyFirstFlow.选

4、择流程图标题后              取新名后                                                                      1.3了解EM界面组件SASEM窗口包含以下界面组件:1.项目导航区—让你管理项目和流程图、向流程图工作区(DiagramWorkspace)添加工具、浏览报告(Reporter)节点生成的HTML报告。注意当一件工具被加到流程图工作区后,该工具就被称为是一个节点。项目导航区有3个标签:  ?流程图标签(Diagrams)—列出了当前项目和该项目包含

5、的流程图。当项目窗口打开时,按照缺省,流程图标签处于激活状态。?工具标签(Tools)—包括EM工具盘。该标签可让你看到所有的EM可用工具(或节点)。这些工具按照SEMMA数据挖掘方法论被分组。许多常用的工具显示在窗口顶部的工具条上。你可以从工具标签拖拽过来的方式往工具条里添加工具。另外你还可以通过拖拽重新安排工具在工具条上的位置。?报告标签(Reports)—显示报告节点(Reporter)生成的HTML报告2.流程图工作区(DiagramWorkplace)—构建、编辑、运行、以及储存流程图的区域3.工具条(ToolsBar)—包括

6、一系列可调配的EM常用工具,用于在DiagramWorkspace里构建流程图。你可以往工具条上加入或删除工具。4.进展指示条(ProgressIndicator)—该条指示的是EM任务的执行情况。5.信息条(MessagePanel)—显示EM任务执行情况的信息。6.连接状况指示条(ConnectionStatusIndicator)—显示远程主机名并指示连接对于客户/服务器项目是否处于活动状态。1.4数据挖掘和SEMMA1.4.1数据挖掘的定义本文献把数据挖掘定义为对大量数据各种关系的探索和建模。1.4.2关于数据的数据经常会来源于

7、几个不同的数据源,把这些数据源的信息整合到一起是相当艰巨的工作。一个典型的数据集合通常有数千条观测记录。一个观测记录可能代表着一个实体,比如:一个客户、一项特定的交易、或者某一个家庭。数据集合中的变量包含观测记录的诸如人口信息、销售额历史、或者金融信息等特定信息。这些信息的使用依赖于人们的研究问题。关于数据类型,根据每一个变量的测量水平我们可以把他们划分为以下几种:1区间变量(interval)—均值有意义的变量,例如收入、温度。2类别变量(categorical)—包括几个水平的变量,例如性别(男或女)、酒量(小、中、大)。总的来说,

8、一个变量不是连续的那它就是类别的。类别型变量可有好几种分类。在EM任务中,我们把类别变量细分为:?单值量(unary)—数据集合中所有观测记录在该变量上的值都相同?二元变量(binary)—只有两个可能观测

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。