资源描述:
《数据挖掘导论 第六章 中文答案.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第六章数据挖掘导论1。对于每个下列问题,提供一个关联规则的一个例子从市场购物篮域,满足下列条件。同样,这些规则是主观地描述是否有趣。(一)一个规则,具有较高的支持和高的信心。答:牛奶−→面包。这种明显的规则往往是无趣的。(b)规则,有相当高的支持,但信心不足。答:牛奶−→金枪鱼。而出售金枪鱼和牛奶可能是高于阈值,并不是所有的事务,包含牛奶也包含金枪鱼。这种低规则往往是无趣的。(c)一个规则,低的支持和信心不足。答:食用油−→洗衣粉。如此低的信心规则往往是无趣的。(d)规则,低支持和高的信心。答:伏特加−→鱼子酱。这样的规则往往是有趣的2。考虑到数据集显示于表格6.1。(一)计算支持项集{e},
2、{b、d},{b、d、e}通过治疗每个事务ID作为一个市场购物篮。答:(b)Usetheresultsinpart(a)tocomputetheconfidencefortheassociationrules{b,d}−→{e}and{e}−→{b,d}.Isconfidenceasymmetricmeasure?c、重复部分(一)通过将每个客户ID作为一个市场购物篮。每个 项目应被视为一个二进制变量(1如果一个项目出现在 至少有一个交易购买的顾客,和0否则。)de没有明显关系s1,s2,c1和c2所以c2有最低的置信度4、因为年代(A,B,C)≤年代(A,B)和max(s(一个),s(B
3、),s(C))≥max(s(一个),s(B)), 因此ζ({A、B})≥ζ({A,B,C})。(b)因为s(A,B,C)≤s(A,B)和最小(s(A,B),s(A,C),s(B,C))≤min(s(一个),s(B),s(C))≤min(s(一个),s(B))、η({A,B,C})可以大于或小于η({A、B})。因此,这些措施是单调。(一)的最大数量,可以提取关联规则从这个数据(包括规则,零支持)?答:有六项数据集。因此总规则的数量是602。(b)什么是频繁项集的最大大小,可以提取(假设用来>0)?答:因为最长的事务包含4项,最大频繁项集的大小是4。(c)编写一个表达式最大数量的大小3项集,可
4、以源自这个数据集。答:(d)找到itemset(大小为2或更大),拥有最大的支持。答:{面包、黄油}。(e)找到一双项目,a和b,这样的规则{一}−→{b}和{b}−→{一}有同样的信心。答:(啤酒,饼干)或(面包、黄油)。比例的频繁项集=16/32=50.0%(包括null 设置)。修剪比率的比例是N的总数量的项目集。因为 的计数N=11,因此修剪比例是11/32=34.4%。误警率的比值我总数量的项目集。因为 计数的我=5,因此误警率是5/32=15.6%。