资源描述:
《数据挖掘复习题和答案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、...一、考虑表中二元分类问题的训练样本集1.整个训练样本集关于类属性的熵是多少?2.关于这些训练集中a1,a2的信息增益是多少?3.对于连续属性a3,计算所有可能的划分的信息增益。4.根据信息增益,a1,a2,a3哪个是最佳划分?5.根据分类错误率,a1,a2哪具最佳?6.根据gini指标,a1,a2哪个最佳?答1.P(+)=4/9andP(-)=5/9-4/9log2(4/9)-5/9log2(5/9)=0.9911.1/14......答2:(估计不考)答3:2/14......答4:Accordingtoi
2、nformationgain,a1producesthebestsplit.3/14......答5:Forattributea1:errorrate=2/9.Forattributea2:errorrate=4/9.Therefore,accordingtoerrorrate,a1producesthebestsplit.答6:4/14......二、考虑如下二元分类问题的数据集5/14......1.计算a.b信息增益,决策树归纳算法会选用哪个属性2.计算a.bgini指标,决策树归纳会用哪个属性?这个答案没问
3、题6/14......1.从图4-13可以看出熵和gini指标在[0,0.5]都是单调递增,而[0.5,1]之间单调递减。有没有可能信息增益和gini指标增益支持不同的属性?解释你的理由Yes,eventhoughthesemeasureshavesimilarrangeandmonotonousbehavior,theirrespectivegains,Δ,whicharescaleddifferencesofthemeasures,donotnecessarilybehaveinthesameway,asill
4、ustratedbytheresultsinparts(a)and(b).贝叶斯分类7/14......1.P(A=1
5、-)=2/5=0.4,P(B=1
6、-)=2/5=0.4,P(C=1
7、-)=1,P(A=0
8、-)=3/5=0.6,P(B=0
9、-)=3/5=0.6,P(C=0
10、-)=0;P(A=1
11、+)=3/5=0.6,P(B=1
12、+)=1/5=0.2,P(C=1
13、+)=2/5=0.4,P(A=0
14、+)=2/5=0.4,P(B=0
15、+)=4/5=0.8,P(C=0
16、+)=3/5=0.6.2.3.P(A=0
17、+)=(
18、2+2)/(5+4)=4/9,P(A=0
19、-)=(3+2)/(5+4)=5/9,P(B=1
20、+)=(1+2)/(5+4)=3/9,P(B=1
21、-)=(2+2)/(5+4)=4/9,P(C=0
22、+)=(3+2)/(5+4)=5/9,P(C=0
23、-)=(0+2)/(5+4)=2/9.4.LetP(A=0,B=1,C=0)=K8/14......1.当的条件概率之一是零,则估计为使用m-估计概率的方法的条件概率是更好的,因为我们不希望整个表达式变为零。1.P(A=1
24、+)=0.6,P(B=1
25、+)=0.4,P(C=1
26、+
27、)=0.8,P(A=1
28、-)=0.4,P(B=1
29、-)=0.4,andP(C=1
30、-)=0.22.LetR:(A=1,B=1,C=1)bethetestrecord.Todetermineitsclass,weneedtocomputeP(+
31、R)andP(-
32、R).UsingBayestheorem,P(+
33、R)=P(R
34、+)P(+)/P(R)andP(-
35、R)=P(R
36、-)P(-)/P(R).SinceP(+)=P(-)=0.5andP(R)isconstant,Rcanbeclassifiedbycompar
37、ingP(+
38、R)andP(-
39、R).Forthisquestion,P(R
40、+)=P(A=1
41、+)×P(B=1
42、+)×P(C=1
43、+)=0.192P(R
44、-)=P(A=1
45、-)×P(B=1
46、-)×P(C=1
47、-)=0.032SinceP(R
48、+)islarger,therecordisassignedto(+)class.3.P(A=1)=0.5,P(B=1)=0.4andP(A=1,B=1)=P(A)×9/14......P(B)=0.2.Therefore,AandBareindependent.1.P(A=
49、1)=0.5,P(B=0)=0.6,andP(A=1,B=0)=P(A=1)×P(B=0)=0.3.AandBarestillindependent.2.CompareP(A=1,B=1
50、+)=0.2againstP(A=1
51、+)=0.6andP(B=1
52、Class=+)=0.4.SincetheproductbetweenP(A=1
53、+)andP(A=1
54、