数据挖掘在线测试

数据挖掘在线测试

ID:9185447

大小:19.96 KB

页数:5页

时间:2018-04-20

数据挖掘在线测试_第1页
数据挖掘在线测试_第2页
数据挖掘在线测试_第3页
数据挖掘在线测试_第4页
数据挖掘在线测试_第5页
资源描述:

《数据挖掘在线测试》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=20%,confmin=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。 事务项目事务项目   T1   T2                      T3面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱   T4   T5啤酒、面包啤酒、牛奶 解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度大于sup

2、min的项集,形成1-频繁集L1,如下表所示: 项集C1支持度项集L1支持度{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于supmin的项集,形成2-频繁集L2,如下表所示:项集C2支持度项集L2支持度{面包、花生酱}3/5{面包、花生酱}3/5至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3

3、>confminconfidence({花生酱}→{面包})=(3/5)/(4/5)=3/4>confmin所以,关联规则{面包}→{花生酱}、{花生酱}→{面包}均是强关联规则。Thefollowingshowsahistoryofcustomerswiththeirincomes,agesandanattributecalled“Have_iPhone”indicatingwhethertheyhaveaniPhone.WealsoindicatewhethertheywillbuyaniPadorno

4、tinthelastcolumn.No.  Income     Age    Have_iPhone  Buy_iPad1       high       young      yes              yes2       high       old           yes              yes3       medium  young      no               yes4       high      old           no           

5、    yes5       medium  young      no               no6       medium  young      no               no7       medium  old          no                no8       medium  old          no               no(a)WewanttotrainaCARTdecisiontreeclassifiertopredictwhethera

6、newcustomerwillbuyaniPadornot.WedefinethevalueofattributeBuy_iPadisthelabelofarecord.(i)PleasefindaCARTdecisiontreeaccordingtotheaboveexample.Inthedecisiontree,wheneverweprocessanodecontainingatmost3records,westoptoprocessthisnodeforsplitting.(ii)Considera

7、newyoungcustomerwhoseincomeismediumandhehasaniPhone.PleasepredictwhetherthisnewcustomerwillbuyaniPadornot.(b)WhatisthedifferencebetweentheC4.5decisiontreeandtheID3decisiontree?Whyisthereadifference?解:a.(i)对于所给定样本的期望信息是:I(S1,S2)=-4/8*log(4/8,2)-4/8*log(4/8,

8、2)=1属性Income的样本Income=highI(S11,S21)=-3/3*log(3/3,2)=0;Income=mediumI(S12,S22)=-1/5*log(1/5,2)-4/5*log(4/5,2)=0.72193则:期望信息为E(Income)=3/8*I(S11,S21)+5/8*I(S12,S22)=0.27072信息增益为Gain(Income)=I(S1,S2)-E(Income)=

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。