数据挖掘在线测试2

数据挖掘在线测试2

ID:47201557

大小:83.62 KB

页数:6页

时间:2019-08-24

数据挖掘在线测试2_第1页
数据挖掘在线测试2_第2页
数据挖掘在线测试2_第3页
数据挖掘在线测试2_第4页
数据挖掘在线测试2_第5页
资源描述:

《数据挖掘在线测试2》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=20%,confmjn=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项H集。事务项目事务项目T1面包、果冻、花T4啤酒、面包T2生酱T5啤酒、牛奶T3面包、花生驚而包、牛奶、花生酱解:(1)ill1={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1■候选C1,计算其支持度,取出支持度大于supmin的项集,形成1■频繁集L1,如卜•表所示:项集C]支持度项集L]支持度{面包}{面包}{花生酱}{花生酱}笳件奶}件奶}{啤酒}2/S{啤酒

2、}(2)组合连接L】中的各项目,产生2■候选集C2,计算其支持度,取出支持度小于sup丽的项集,形成2-频繁集12,如下表所示:项集c2支持度项集l2支持度{面包、花生酱}{面包、花生酱}至此,所有频繁集都被找到,算法结束,所以,confidence({面包}-*{花生酱})=(4/5)/(笳)=4/3>confminconfidence({花牛酱}-*{面包})=(祐)/(4/5)=3/4>confmin所以,关联规则{而包}一{花生酱}、{花生酱}-{而包}均是强关联规则。2.Thefollowingshowsahistoryofcustomerswiththeirincomes

3、,agesandanattributecalled"Have」Phone"indicatingwhethertheyhaveaniPhone.WealsoindicatewhethertheywillbuyaniPadornotinthelastcolumn.No.IncomeAgeHaveJPhoneBuyJPad1highyoungyesyes2higholdyesyes3mediumyoungnoyes4higholdnoyes5mediumyoungnono6mediumyoungnono7mediumoldnono8mediumoldnono(a)Wewanttotrain

4、aCARTdecisiontreeclassifiertopredictwhetheranewcustomerwillbuyaniPadornot.WedefinethevalueofattributeBuyJPadisthelabelofarecord.(i)PleasefindaCARTdecisiontreeaccordingtotheaboveexample.Inthedecisiontree,wheneverweprocessanodecontainingatmost3records,westoptoprocessthisnodeforsplitting.(ii)Consi

5、deranewyoungcustomerwhoseincomeismediumandhehasaniPhone.PleasepredictwhetherthisnewcustomerwillbuyaniPadornot.解:a.(i)对于所给定样本的期望信息是:l(Sl/S2)=-4/8*log(48/2)-4/3*108^2)=1属性Income的样本lncome=highl(Sll,S21)=-3/3*log(^,2)=0;l(S12,S22)=-^5*log(ly5,2)-4/5*log(4/5,2)=0.72193(b)Whatisthediffereneebetweenth

6、eC4.5decisiontreeandtheID3decisiontree?Whyisthereadifferenee?Income=medium则:E(lncome)=3^*l(Sll,S21)+5/S*I(S1乙S22)=0.27072Gain(lncome)=I(S1,S2)-E(lncome)=0.729277期望信息为信息增益为同样计算知:Gain(Age)=0.09436Gain(Have_iPhone)=0.11对另一个节点继续使用以上方法,在A2,A3选择最优特征及其最优依此计算得,CART树为:这三个属性中Income的Gain最人,所以选择Income为最优特征

7、,于是根节点生•成两个子节点,一个是叶节点,切分点,结果是Age。、Income(ii)这个新的年轻、中等收入、冇IPhone的顾客,将不会购买IPad。(b)C4.5决策树算法和ID3算法相似,但是C4.5决策树算法是对ID3算法的改进,ID3算法在生成决策树的过程中,使用信息增益來进行特征选择,是选择信息增益最大的特征;C4.5算法在牛•成决策树的过程屮,川信息增益比來选择特征,是选择信息增益比最人的特征。因为信息增益的大小是相对于训练数据集而言的,并

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。