欢迎来到天天文库
浏览记录
ID:9185447
大小:19.96 KB
页数:5页
时间:2018-04-20
《数据挖掘在线测试》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=20%,confmin=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。 事务项目事务项目 T1 T2 T3面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱 T4 T5啤酒、面包啤酒、牛奶 解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度大于sup
2、min的项集,形成1-频繁集L1,如下表所示: 项集C1支持度项集L1支持度{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于supmin的项集,形成2-频繁集L2,如下表所示:项集C2支持度项集L2支持度{面包、花生酱}3/5{面包、花生酱}3/5至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3
3、>confminconfidence({花生酱}→{面包})=(3/5)/(4/5)=3/4>confmin所以,关联规则{面包}→{花生酱}、{花生酱}→{面包}均是强关联规则。Thefollowingshowsahistoryofcustomerswiththeirincomes,agesandanattributecalled“Have_iPhone”indicatingwhethertheyhaveaniPhone.WealsoindicatewhethertheywillbuyaniPadorno
4、tinthelastcolumn.No. Income Age Have_iPhone Buy_iPad1 high young yes yes2 high old yes yes3 medium young no yes4 high old no
5、 yes5 medium young no no6 medium young no no7 medium old no no8 medium old no no(a)WewanttotrainaCARTdecisiontreeclassifiertopredictwhethera
6、newcustomerwillbuyaniPadornot.WedefinethevalueofattributeBuy_iPadisthelabelofarecord.(i)PleasefindaCARTdecisiontreeaccordingtotheaboveexample.Inthedecisiontree,wheneverweprocessanodecontainingatmost3records,westoptoprocessthisnodeforsplitting.(ii)Considera
7、newyoungcustomerwhoseincomeismediumandhehasaniPhone.PleasepredictwhetherthisnewcustomerwillbuyaniPadornot.(b)WhatisthedifferencebetweentheC4.5decisiontreeandtheID3decisiontree?Whyisthereadifference?解:a.(i)对于所给定样本的期望信息是:I(S1,S2)=-4/8*log(4/8,2)-4/8*log(4/8,
8、2)=1属性Income的样本Income=highI(S11,S21)=-3/3*log(3/3,2)=0;Income=mediumI(S12,S22)=-1/5*log(1/5,2)-4/5*log(4/5,2)=0.72193则:期望信息为E(Income)=3/8*I(S11,S21)+5/8*I(S12,S22)=0.27072信息增益为Gain(Income)=I(S1,S2)-E(Income)=
此文档下载收益归作者所有