资源描述:
《数据挖掘在线测试2》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=20%,confmjn=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项H集。事务项目事务项目T1面包、果冻、花T4啤酒、面包T2生酱T5啤酒、牛奶T3面包、花生驚而包、牛奶、花生酱解:(1)ill1={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1■候选C1,计算其支持度,取出支持度大于supmin的项集,形成1■频繁集L1,如卜•表所示:项集C]支持度项集L]支持度{面包}{面包}{花生酱}{花生酱}笳件奶}件奶}{啤酒}2/S{啤酒
2、}(2)组合连接L】中的各项目,产生2■候选集C2,计算其支持度,取出支持度小于sup丽的项集,形成2-频繁集12,如下表所示:项集c2支持度项集l2支持度{面包、花生酱}{面包、花生酱}至此,所有频繁集都被找到,算法结束,所以,confidence({面包}-*{花生酱})=(4/5)/(笳)=4/3>confminconfidence({花牛酱}-*{面包})=(祐)/(4/5)=3/4>confmin所以,关联规则{而包}一{花生酱}、{花生酱}-{而包}均是强关联规则。2.Thefollowingshowsahistoryofcustomerswiththeirincomes
3、,agesandanattributecalled"Have」Phone"indicatingwhethertheyhaveaniPhone.WealsoindicatewhethertheywillbuyaniPadornotinthelastcolumn.No.IncomeAgeHaveJPhoneBuyJPad1highyoungyesyes2higholdyesyes3mediumyoungnoyes4higholdnoyes5mediumyoungnono6mediumyoungnono7mediumoldnono8mediumoldnono(a)Wewanttotrain
4、aCARTdecisiontreeclassifiertopredictwhetheranewcustomerwillbuyaniPadornot.WedefinethevalueofattributeBuyJPadisthelabelofarecord.(i)PleasefindaCARTdecisiontreeaccordingtotheaboveexample.Inthedecisiontree,wheneverweprocessanodecontainingatmost3records,westoptoprocessthisnodeforsplitting.(ii)Consi
5、deranewyoungcustomerwhoseincomeismediumandhehasaniPhone.PleasepredictwhetherthisnewcustomerwillbuyaniPadornot.解:a.(i)对于所给定样本的期望信息是:l(Sl/S2)=-4/8*log(48/2)-4/3*108^2)=1属性Income的样本lncome=highl(Sll,S21)=-3/3*log(^,2)=0;l(S12,S22)=-^5*log(ly5,2)-4/5*log(4/5,2)=0.72193(b)Whatisthediffereneebetweenth
6、eC4.5decisiontreeandtheID3decisiontree?Whyisthereadifferenee?Income=medium则:E(lncome)=3^*l(Sll,S21)+5/S*I(S1乙S22)=0.27072Gain(lncome)=I(S1,S2)-E(lncome)=0.729277期望信息为信息增益为同样计算知:Gain(Age)=0.09436Gain(Have_iPhone)=0.11对另一个节点继续使用以上方法,在A2,A3选择最优特征及其最优依此计算得,CART树为:这三个属性中Income的Gain最人,所以选择Income为最优特征
7、,于是根节点生•成两个子节点,一个是叶节点,切分点,结果是Age。、Income(ii)这个新的年轻、中等收入、冇IPhone的顾客,将不会购买IPad。(b)C4.5决策树算法和ID3算法相似,但是C4.5决策树算法是对ID3算法的改进,ID3算法在生成决策树的过程中,使用信息增益來进行特征选择,是选择信息增益最大的特征;C4.5算法在牛•成决策树的过程屮,川信息增益比來选择特征,是选择信息增益比最人的特征。因为信息增益的大小是相对于训练数据集而言的,并