资源描述:
《(毕业设计)基于clementine的数据挖掘指导的设计与开发》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于clementine的数据挖掘实验指导clementine决策树分类模型一.基于决策树模型进行分类的基木原理概念2二.范例说明2三.数据集说明3四.训练模型3五.测试模型7clementine线性回归模型10一.冋归分析的基本原理10二.范例说明10三.数据集说明10四.训练模型10五.测试模型15Clementine聚类分析模型一.聚类分析的基本原理18二.范例说明18三.数据集说明18四.建立聚类模型19Clementine关联规则模型24一.关联规则的基木原理24二.范例说明24三.数据集说明25一.关联规则模型25clementine决策树分类模型一.
2、基于决策树模型进行分类的基本原理概念分类就是:分析输入数据,通过在训练集屮的数据表现出来的特性,为每一个类找到一•种准确的描述或者模型。由此生成的类描述用來对未來的测试数据进行分类。数据分类是一个两步过程:第一步,建立一个模型,描述预定的数据类集或概念集;第二步,使用模型进行分类。clementine8.1中提供的回归方法有两利UC5.0(C5.0决策树)和NeuralNet(神经网络)。下面的例了主要慕于C5.0决策树生成算法进行分类。C5.0算法最早(20世纪50年代)的算法是亨特CLS(ConceptLearningSystem)提出,示经发展由JRQuin
3、lan在1979年提出了著名的ID3算法,主要针对离散型属性数据;C4.5是ID3后来的改进算法,它在ID3基础上增加T:对连续属性的离散化;C5.0是C4.5应用于大数据集上的分类算法,主耍在执行效率和内存使用方面进行了改进。优点:在面对数据遗漏和输入字段很多的问题时非常稳健;通常不需要很长的训练次数进行估计;比一些其他类型的模型易丁•理解,模型推出的规则有非常肓观的解轻;也提供强人的增强技术以提高分类的精度。二.范例说明该范例的背景是客户详细的个人投资计划作为一种市场营销活动的结果,snapshottrainN.db(训练数据)描述的是不同age(年龄),不同
4、sex(性别),不同region(地域),不同income(收入),不同married(婚姻),等等的数据,通过分类算法对训练数据进行建模得到决策树模型,通过得到的决策树模型来判断测试数据集(snapshottestN.db)里面的每个记录的pep(个人投资计划)属性是yes还是no。使用clementine建立流程图,如图1所示:[m](®)—TablesnapshottrainNdbpepAnalysis
5、M
6、YTablepep图1总流程图—囤Analysis一.数据集说明数据集snapshottrainN.db,以下是该数据集的所有字段名:•id.唯一的识别
7、号•age.年龄•sex.性别•region.地理位置•income.收入•merried.是否已婚•children.有几个孩了•car.是否有汽车•save_act.是否有储蓄账户•current_act.是否有活期存款•mortgage.是否有抵押•pep.是否有个人投资计划训练模型通过下而的操作,将完成如图2所示的流。pepAnalysispep图2训练模型(1)导入数据及预处理插入一个变项文件节点(SourceWar.File),双击该节点,在File框输入snapshottrainN.db的物理路径,如图3所示:IIjilRefreshVar.File
8、Var.FileEASpssClementine戯裾IsnapshottrainN.dbFile:E:SpssClementine遨据snapshottrainN.dbid,age,sex‘region,income,married,children,car,save_act,current,ID1210r.48,'FEMALE2,'I1JNER_CITY/z17546.0,?N01/N0?/M0?/1TO?/N0?YES'ID12102?,40,?MALE?,?TOWlf?30085.1,'YES',3,”YES'/N0YES?/YES','NO''I
9、D12103',51,'FEMALE^,'IlfflER.CITY^,16575.4,'YES',0,'YES'/YES^/YES',‘KO','NO'图3输入节点(1)变量类型的定义及实例化:在建模之前,我们首先将一个类型节点TypeNode加到目前的流程屮。点击RendValues以读取数据。因为需要用年龄,性别,地区,收入等等为引数來估计个人投资计划,所以将id的Direction设为“None”,将pep设为“Out”,其他字段设为“In”。如图4所示:Type>ReadValuesClearValuesClearAllValuesFieldTd-Type
10、Value