数据仓库与数据挖掘实验三(数据挖掘).doc

数据仓库与数据挖掘实验三(数据挖掘).doc

ID:56104154

大小:932.50 KB

页数:8页

时间:2020-03-16

数据仓库与数据挖掘实验三(数据挖掘).doc_第1页
数据仓库与数据挖掘实验三(数据挖掘).doc_第2页
数据仓库与数据挖掘实验三(数据挖掘).doc_第3页
数据仓库与数据挖掘实验三(数据挖掘).doc_第4页
数据仓库与数据挖掘实验三(数据挖掘).doc_第5页
资源描述:

《数据仓库与数据挖掘实验三(数据挖掘).doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、一、实验内容和目的目的:1.理解数据挖掘的基本概念及其过程;2.理解数据挖掘与数据仓库、OLAP之间的关系3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。内容:将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft决策树”算法在客户群中找出会员卡选择模式。请将要挖掘的维度(事例维度)设置为客户,再将Member_Card成员的属性设置为数据挖掘算法识别模式时要使用的信息。然后选择人口统计特征列表,算法将从中确定模式:婚姻状况、年收入、在家子女数和教育程度。下一步需要训练模型

2、,以便能够浏览树视图并从中读取模式。市场部将根据这些模式设计新的会员卡,使其适应申请各类会员卡的客户类型。二、所用仪器、材料(设备名称、型号、规格等)操作系统平台:Windows7数据库平台:SQLServer2008SP2三、实验原理知识发现被认为是从数据中发现有用知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式。KDD过程定义为:KDD是从数据集中识别出有效出、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。KDD过程可以概括为3部分:数据准备(dataprep

3、aration),数据挖掘及结果的解释和评估(interpretation&evaluation)。-8-数据挖掘的对象主要是关系数据库和数据仓库,这是典型的结构化数据。随着技术的发展,数据挖掘对象逐步扩大到半结构化或非结构化数据,这主要是文本数据、图像与视频数据以及Web数据等。数据挖掘任务有6项:关联分析、时序模式、聚类、分类、偏差检测、预测。数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,以数据库为研究对象,形成了数据挖掘方法和技术。数据挖掘方法

4、和技术可以分为6大类:1.归纳学习的信息论方法:ID3等方法(决策树方法)、IBLE方法(决策规则树方法)2.归纳学习的集合论方法:粗糙集(roughset)方法、关联规则挖掘、覆盖正例排斥反例方法、概念树方法。3.仿生物技术的神经网络方法:前馈式网络、反馈式网络、自组织网络4.仿生物技术的遗传算法:繁殖(选择)、交叉(重组)、变异(突变)5.数据数据的公式发现:物理定律发现系统BACON、经验公式发现系统FDD6.可视化技术:提取几何图元、绘制、显示和演放四、实验方法、步骤要求:利用实验室和指导教师提供的实验软

5、件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出多维数据组织模型及其OLAP操作过程。实验完成后,应根据实验情况写出实验报告。五、实验过程原始记录(数据、图表、计算等)本实验使用MicrosoftSQLServer的数据挖掘工具,对一组电信运营商的客户数据进行挖掘,分析客户流失特征,以此来预测当前可能流失的客户,为企业营销提供支持。u首先将待挖掘数据(存放于文本文件中)导入数据库先在数据库中建立数据表(若直接导入,相应字段的数据类型不匹配,会影响挖掘效果)USE[D

6、W]GO-8-SETANSI_NULLSONGOSETQUOTED_IDENTIFIERONGOCREATETABLE[dbo].[大理PAS流失训练]([SERV_ID][float]NULL,--服务ID[CUST_ID][float]NULL,[ZWSC][float]NULL,--在网时长[BILLING_MODE_ID][float]NULL,[PAYMENT_METHOD][float]NULL,--付费方式[ORG_ID][float]NULL,--地区ID[NEW_YXSX][float]NULL

7、,[ZWSC_DSC][nvarchar](255)NULL,[KB][nvarchar](255)NULL,--捆绑其他业务[AGE][nvarchar](255)NULL,--年龄[LX][nvarchar](255)NULL,--来电显示[CL][nvarchar](255)NULL,--彩铃[FEE_ALL][nvarchar](255)NULL,[YC][nvarchar](255)NULL,--预存[IS_LS][float]NULL--是否流失,0表示未流失,1表示流失)ON[PRIMARY]GO导

8、入待挖掘数据-8-u打开Microsoft的SQLServerBusinessIntelligenceDevelopmentStudio工具,在实验二的OLAP项目中添加刚刚创建导入的数据表执行挖掘算法,创建挖掘结构,并分析挖掘结果1.Microsoft决策树-8--8-挖掘得到的决策树:数据挖掘结果:命中率:覆盖率:2.Microsoft神经网络-8-挖掘得到的模型:-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。