欢迎来到天天文库
浏览记录
ID:57565030
大小:495.33 KB
页数:8页
时间:2020-08-27
《数据挖掘及决策树.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、精品文档昆明理工大学信息工程与自动化学院学生实验报告(2016—2017学年第学期)课程名称:数据仓库与数据挖掘开课实验室:信自楼4442017年06月01日年级、专业、班软件141班学号2014104131XX姓名陈*成绩实验项目名称数据挖掘及决策树指导教师贾连印教该同学是否了解实验原理:A.了解□B.基本了解□C.不了解□该同学的实验能力:A.强□B.中等□C.差□师该同学的实验是否达到要求:A.达到□B.基本达到□C.未达到□实验报告是否规范:A.规范□B.基本规范□C.不规范□评实验过程是否详细记录:A.详细□B.一般□C.没有□语教师签名:年月日一、上机目的及内容目的:1.理解
2、数据挖掘的基本概念及其过程;2.理解数据挖掘与数据仓库、OLAP之间的关系3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。内容:给定AdventureWorksDW数据仓库,构建“Microsoft决策树”模型,分析客户群中购买自行车的模式。要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的二、实验原理及基本技术路线图(方框原理图或程序流程图)请描述数据挖掘及决策树的相关基本概念、模型等。1.数据挖掘:从大量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。
3、2.数据挖掘的功能:功能概念或作用概念描述对某类对象的内涵进行描述,并概括这类对象的有关特征关联分析从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及1欢迎下载。精品文档项集的频繁模式分类与预测分类:提出一个分类函数或者分类模型,该模型能把数据库中的数据项映射到给定类别中的一个;预测:利用历史数据建立模型,再运用最新数据作为输入值,获得未来变化趋势或者评估给定样本可能具有的属性值或值的范围聚类分析根据数据的不同特征,将其划分为不同数据类偏差分析对差异和极端特例的描述,揭示事物偏离常规的异常现象,其基本思想是寻找观测结果与参照值之间有意义的差别3.决策树:是一种预测模型,它代表
4、的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。4.常用决策树算法:算法概念ID3在实体世界中,每个实体用多个特征来描述。每个特征限于在一个离散集中取互斥的值C4.5对ID3算法进行了改进:用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;在树构造过程中进行剪枝;能够完成对连续属性的离散化处理;能够对不完整数据进行处理。三、所用仪器、材料(设备名称、型号、规格等或使用
5、软件)1台PC及MicrosoftSQLServer套件四、实验方法、步骤(或:程序代码或操作过程)(一)准备AnalysisServices数据库1.AnalysisServices项目创建成功2.更改存储数据挖掘对象的实例2欢迎下载。精品文档3.创建数据源4.修改数据源视图(二)生成目标邮件方案1.创建用于目标邮件方案的挖掘结构3欢迎下载。精品文档2.修改目标邮件模型创建聚类分析挖掘模型NaiveBayes模型处理挖掘模型(三)决策树4欢迎下载。精品文档(四)依赖关系网络5欢迎下载。精品文档五、实验结果(测试数据、图表、计算等)决策树六、分析和结论(误差分析与数据处理、成果总结等。其
6、中,绘制曲线图时必须用计算纸6欢迎下载。精品文档或程序运行结果、改进、收获)1.在本次实验中,在建立数据源视图时,多次出现错误,后来发现是因为未附加数据库的原因,附加数据库后解决了。2.因为实验没有完成就关闭了电脑,重启电脑后,出现无法连接的错误,后通过管理界面启动服务后解决。3.在部署时,出现由于“创建用于目标邮件方案的挖掘结构”中“内容类型”的设置没有严格按照教程来,导致后续有继承键而无法部署,重新设置更改后才得以解决。4.本次实验都只是按照丛书教程里弄的,还不太深入理解其中的知识和相关理论,相信在今后的生活、学习和实践中,慧能更好的去掌握决策树。7欢迎下载。精品文档欢迎您的下载,资
7、料仅供参考!致力为企业和个人提供合同协议,策划案计划书,学习资料等等打造全网一站式需求5.8欢迎下载。
此文档下载收益归作者所有