大数据挖掘复习题和问题详解.doc

大数据挖掘复习题和问题详解.doc

ID:57307090

大小:1.22 MB

页数:19页

时间:2020-08-11

大数据挖掘复习题和问题详解.doc_第1页
大数据挖掘复习题和问题详解.doc_第2页
大数据挖掘复习题和问题详解.doc_第3页
大数据挖掘复习题和问题详解.doc_第4页
大数据挖掘复习题和问题详解.doc_第5页
资源描述:

《大数据挖掘复习题和问题详解.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、一、考虑表中二元分类问题的训练样本集1.整个训练样本集关于类属性的熵是多少?2.关于这些训练集中a1,a2的信息增益是多少?3.对于连续属性a3,计算所有可能的划分的信息增益。4.根据信息增益,a1,a2,a3哪个是最佳划分?5.根据分类错误率,a1,a2哪具最佳?6.根据gini指标,a1,a2哪个最佳?答1.P(+)=4/9andP(−)=5/9−4/9log2(4/9)−5/9log2(5/9)=0.9911.答2:(估计不考)答3:答4:Accordingtoinformationgain,a1producesth

2、ebestsplit.答5:Forattributea1:errorrate=2/9.Forattributea2:errorrate=4/9.Therefore,accordingtoerrorrate,a1producesthebestsplit.答6:一、考虑如下二元分类问题的数据集1.计算a.b信息增益,决策树归纳算法会选用哪个属性1.计算a.bgini指标,决策树归纳会用哪个属性?这个答案没问题1.从图4-13可以看出熵和gini指标在[0,0.5]都是单调递增,而[0.5,1]之间单调递减。有没有可能信息增益和

3、gini指标增益支持不同的属性?解释你的理由Yes,eventhoughthesemeasureshavesimilarrangeandmonotonousbehavior,theirrespectivegains,Δ,whicharescaleddifferencesofthemeasures,donotnecessarilybehaveinthesameway,asillustratedbytheresultsinparts(a)and(b).贝叶斯分类1.P(A=1

4、−)=2/5=0.4,P(B=1

5、−)=2/5=0

6、.4,P(C=1

7、−)=1,P(A=0

8、−)=3/5=0.6,P(B=0

9、−)=3/5=0.6,P(C=0

10、−)=0;P(A=1

11、+)=3/5=0.6,P(B=1

12、+)=1/5=0.2,P(C=1

13、+)=2/5=0.4,P(A=0

14、+)=2/5=0.4,P(B=0

15、+)=4/5=0.8,P(C=0

16、+)=3/5=0.6.2.1.P(A=0

17、+)=(2+2)/(5+4)=4/9,P(A=0

18、−)=(3+2)/(5+4)=5/9,P(B=1

19、+)=(1+2)/(5+4)=3/9,P(B=1

20、−)=(2+2)/(5+4)=4/9

21、,P(C=0

22、+)=(3+2)/(5+4)=5/9,P(C=0

23、−)=(0+2)/(5+4)=2/9.2.LetP(A=0,B=1,C=0)=K3.当的条件概率之一是零,则估计为使用m-估计概率的方法的条件概率是更好的,因为我们不希望整个表达式变为零。1.P(A=1

24、+)=0.6,P(B=1

25、+)=0.4,P(C=1

26、+)=0.8,P(A=1

27、−)=0.4,P(B=1

28、−)=0.4,andP(C=1

29、−)=0.22.LetR:(A=1,B=1,C=1)bethetestrecord.Todetermineitsclass,

30、weneedtocomputeP(+

31、R)andP(−

32、R).UsingBayestheorem,P(+

33、R)=P(R

34、+)P(+)/P(R)andP(−

35、R)=P(R

36、−)P(−)/P(R).SinceP(+)=P(−)=0.5andP(R)isconstant,RcanbeclassifiedbycomparingP(+

37、R)andP(−

38、R).Forthisquestion,P(R

39、+)=P(A=1

40、+)×P(B=1

41、+)×P(C=1

42、+)=0.192P(R

43、−)=P(A=1

44、−)×P(B=1

45、−)×P(C=1

46、−)

47、=0.032SinceP(R

48、+)islarger,therecordisassignedto(+)class.3.P(A=1)=0.5,P(B=1)=0.4andP(A=1,B=1)=P(A)×P(B)=0.2.Therefore,AandBareindependent.4.P(A=1)=0.5,P(B=0)=0.6,andP(A=1,B=0)=P(A=1)×P(B=0)=0.3.AandBarestillindependent.5.CompareP(A=1,B=1

49、+)=0.2againstP(A=1

50、+)=0.6an

51、dP(B=1

52、Class=+)=0.4.SincetheproductbetweenP(A=1

53、+)andP(A=1

54、−)arenotthesameasP(A=1,B=1

55、+),AandBarenotconditionallyindependentgiventheclass.一、使用下表中的相似度矩阵进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。