数据挖掘在线测试2

ID：47201557

大小：83.62 KB

页数：6页

时间：2019-08-24

资源描述：

《数据挖掘在线测试2》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=20%,confmjn=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项H集。事务项目事务项目T1面包、果冻、花T4啤酒、面包T2生酱T5啤酒、牛奶T3面包、花生驚而包、牛奶、花生酱解：(1)ill1=｛面包、果冻、花生酱、牛奶、啤酒｝的所有项目直接产生1■候选C1,计算其支持度，取出支持度大于supmin的项集，形成1■频繁集L1,如卜•表所示：项集C]支持度项集L]支持度｛面包｝｛面包｝｛花生酱｝｛花生酱｝笳件奶｝件奶｝｛啤酒｝2/S｛啤酒

2、｝(2)组合连接L】中的各项目,产生2■候选集C2,计算其支持度,取出支持度小于sup丽的项集，形成2-频繁集12,如下表所示：项集c2支持度项集l2支持度｛面包、花生酱｝｛面包、花生酱｝至此，所有频繁集都被找到，算法结束，所以，confidence(｛面包｝-*｛花生酱｝)=(4/5)/(笳)=4/3>confminconfidence(｛花牛酱｝-*｛面包｝)=(祐)/(4/5)=3/4>confmin所以，关联规则｛而包｝一｛花生酱｝、｛花生酱｝-｛而包｝均是强关联规则。2.Thefollowingshowsahistoryofcustomerswiththeirincomes

3、,agesandanattributecalled"Have」Phone"indicatingwhethertheyhaveaniPhone.WealsoindicatewhethertheywillbuyaniPadornotinthelastcolumn.No.IncomeAgeHaveJPhoneBuyJPad1highyoungyesyes2higholdyesyes3mediumyoungnoyes4higholdnoyes5mediumyoungnono6mediumyoungnono7mediumoldnono8mediumoldnono(a)Wewanttotrain

4、aCARTdecisiontreeclassifiertopredictwhetheranewcustomerwillbuyaniPadornot.WedefinethevalueofattributeBuyJPadisthelabelofarecord.(i)PleasefindaCARTdecisiontreeaccordingtotheaboveexample.Inthedecisiontree,wheneverweprocessanodecontainingatmost3records,westoptoprocessthisnodeforsplitting.(ii)Consi

5、deranewyoungcustomerwhoseincomeismediumandhehasaniPhone.PleasepredictwhetherthisnewcustomerwillbuyaniPadornot.解：a.(i)对于所给定样本的期望信息是:l(Sl/S2)=-4/8*log(48/2)-4/3*108^2)=1属性Income的样本lncome=highl(Sll,S21)=-3/3*log(^,2)=0;l(S12,S22)=-^5*log(ly5,2)-4/5*log(4/5,2)=0.72193(b)Whatisthediffereneebetweenth

6、eC4.5decisiontreeandtheID3decisiontree?Whyisthereadifferenee?Income=medium则：E(lncome)=3^*l(Sll,S21)+5/S*I(S1乙S22)=0.27072Gain(lncome)=I(S1,S2)-E(lncome)=0.729277期望信息为信息增益为同样计算知：Gain(Age)=0.09436Gain(Have_iPhone)=0.11对另一个节点继续使用以上方法，在A2,A3选择最优特征及其最优依此计算得，CART树为：这三个属性中Income的Gain最人，所以选择Income为最优特征

7、，于是根节点生•成两个子节点，一个是叶节点，切分点，结果是Age。、Income(ii)这个新的年轻、中等收入、冇IPhone的顾客，将不会购买IPad。(b)C4.5决策树算法和ID3算法相似，但是C4.5决策树算法是对ID3算法的改进，ID3算法在生成决策树的过程中，使用信息增益來进行特征选择，是选择信息增益最大的特征；C4.5算法在牛•成决策树的过程屮，川信息增益比來选择特征，是选择信息增益比最人的特征。因为信息增益的大小是相对于训练数据集而言的，并

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据挖掘在线测试2

数据挖掘在线测试2

相关文章

相关标签