资源描述:
《数据挖掘原理与应用教师用书精简版.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、给定如表3-4所示事务数据库画出FP-treeItemSCPc5b4d3e3a2决策树容易转换成分类规则,试把图4-1转化为分类规则Ifage<=30andstudent=noThenbuys_computer=noIfage<=30andstudent=yesThenbuys_computer=yesIfage>30andage<=40Thenbuys_computer=yesIfage>40andcredit_rating=excellentThenbuys_computer=noIfage>40andcredit_rating=fairThenbuys_comp
2、uter=yes下面的例子被分为3类{short,tall,Medium}(0,1.6)(1.6,1.7)..(2.0,无穷)P(Output=“Short”)=4/14=0.267;P(Output=“Medium”)=8/15=0.533P(Output=“Tall”)=3/15=0.200P(Gender=“M”
3、Output=”Short”)=1/4=0.25P(Gender=“M”
4、Output=”Medium”)=2/8=0.25P(Gender=“M”
5、Output=”Tall”)=3/3=1P(Height=(1.9,2.0]
6、Output=”Shor
7、t”)=0/4=0P(Height=(1.9,2.0]
8、Output=”Medium=1/8=0.125P(Height=(1.9,2.0]
9、Output=”Short”)=1/3=0.33P(X
10、Output=”Short”)=0.24x0=0P(X
11、Output=”Medium”)=0.25x0.125=0.0313P(X
12、Output=”Tall”)=1x0.33=0.33P(X
13、Output=”Short”)P(Output=”Short”)=0x0.267=0P(X
14、Output=”Medium”)=0.25x0.125=0.0313x0.533=0.016
15、7P(X
16、Output=”Tall”)=0.33x0.2=0.066对于样本t=17、22-20
18、2+
19、1-0
20、2+
21、42-36
22、+
23、10-8
24、2]1/2=(4+1+36+41)1/2=45/2=6.708(2)根据两个对象之间的绝对距离公式d(x,y)=得出:d(x,y)=(22-2
25、0)+(1-0)+(42-36)+(10-8)=2+1+6+2=1123.在表5-4中给定的样本上运行DIANA算法,假定算法的终止条件为三个簇,初始簇{1,2,3,4.5.6.7.8}.第一步,找到具有最大直径的簇,对簇中的每个点计算平均相异度1的平均距离:(5.000+8.485+3.606+7.071+7.211+8.062+2.236>/7=5.9532的平均距离:(5.000+6.082+4.243+5.000+4.123+3.162+4.472)/7=4.5833的平均距(8.485+6.082+5.000+1.414+2.000+7.280+6.403)
26、/7=5.2384的平均距离:(3.606+4.243+5.000+3.606+4.123+7.211+1.414)/7=4.1725的平均距离:(7.071+5.000+1.414+3.606+1.414+6.708+5.000/7=4.3166的平均距离:(7.211+4.123+2.000+4.123+1.414+5.385+5.385)/7=4.2347的平均距离:(8.062+3.162+7.280+7.211+6.708+5.385+7.616)/7=6.4898的平均距离:(2.236+4.472+6.403+1.414+5.000+5.385+7.61
27、6>/7=4.647挑出平均相异度最大的点7放到splintergroup中,剩余点在oldparty中。第二步,在oldparty里找出到最近的splintergroup中的点的距离不大于到oldparty中最近的点的距离的点,将该点放入splintergroup中,该点是2。第三步,没有新的oldparty中的点被分配给splintergroup,分裂簇数为2.第四步,具有最大直径的簇为(1.3,4,5.6.8)(具体属性值见表5-5.对簇中的每个点计算平均相异度。1的平均距离:(8.485+3.606+7.071+7.211+2.236)/5=