资源描述:
《如何修改基本决策树算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、a)如何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)的count?b)使用修改过的算法,构造给定数据的决策树。c)给定一个数据元组,它的属性department,age和salary的值分别为“systems”,“26…30”,和“46K…50K”。该元组status的朴素贝叶斯分类是什么?1.为给定的数据设计一个多层前馈神经网络。标记输入和输出层节点。2.使用上面得到的多层前馈神经网络,给定训练实例(sales,senior,31…35,46K…50K),给出后向传播算法一次迭代后的权重值。指出你使用的初始权重和偏倚以及学习率。解答:(a)如
2、何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)的count?(b)使用修改过的算法,构造给定数据的决策树。(c)给定一个数据元组,它的属性department,age和salary的值分别为“systems”,“26…30”,和“46K…50K”。该元组status的朴素贝叶斯分类是什么?解一:设元组的各个属性之间相互独立,所以先求每个属性的类条件概率:P(systems
3、junior)=(20+3)/(40+40+20+3+4+6)=23/113;P(26-30
4、junior)=(40+3+6)/113=49/113;P(46K-50K
5、ju
6、nior)=(20+3)/113=23/113;∵X=(department=system,age=26…30,salary=46K…50K);∴P(X
7、junior)=P(systems
8、junior)P(26-30
9、junior)P(46K-50K
10、junior)=23×49×23/1133=25921/1442897=0.01796;P(systems
11、senior)=(5+3)/(30+5+3+10+4)=23/52;P(26-30
12、senior)=(0)/53=0;P(46K-50K
13、senior)=(30+10)/52=40/52;∵X=(de
14、partment=system,age=26…30,salary=46K…50K);∴P(X
15、senior)=P(systems
16、senior)P(26-30
17、senior)P(46K-50K
18、senior)=0;∵P(junior)=113/165=0.68;∵P(senior)=52/165=0.32;∴P(X
19、junior)P(junior)=0.01796×0.68=0.0122128>0=0=P(X
20、senior)P(senior);所以:朴素贝叶斯分类器将X分到junior类。解二:设元组的各属性之间不独立,其联合概率不能写成份量相乘的形式。所
21、以已知:X=(department=system,age=26…30,salary=46K…50K),元组总数为:30+40+40+20+5+3+3+10+4+4+6=165。先验概率:当status=senior时,元组总数为:30+5+3+10+4=52,P(senior)=52/165=0.32;当status=junior时,元组总数为:40+40+20+3+4+6=113,P(junior)=113/165=0.68;因为status=senior状态没有对应的age=26…30区间,所以:P(X
22、senior)=0;因为status=junio
23、r状态对应的partment=systems、age=26…30区间的总元组数为:3,所以:P(X
24、junior)=3/113;因为:P(X
25、junior)P(junior)=3/113×113/165=0.018>0=P(X
26、senior)P(senior);所以:朴素贝叶斯分类器将X分到junior类。(a)为给定的数据设计一个多层前馈神经网络。标记输入和输出层节点。(b)使用上面得到的多层前馈神经网络,给定训练实例(sales,senior,31…35,46K…50K),给出后向传播算法一次迭代后的权重值。指出你使用的初始权重和偏倚以及学习率。7.3
27、.1判定树归纳判定树归纳的基本算法是贪心算法,它以自顶向下递归的划分-控制方式构造判定树。算法在图7.3中,是一种著名的判定树算法ID3版本。算法的扩展将在7.3.2到7.3.6小节讨论。算法的基本策略如下:n树以代表训练样本的单个结点开始(步骤1)。n如果样本都在同一个类,则该结点成为树叶,并用该类标号(步骤2和3)。n否则,算法使用称为信息增益的基于熵的度量作为启发信息,选择能够最好地将样本分类的属性(步骤6)。该属性成为该结点的“测试”或“判定”属性(步骤7)。在算法的该版本中,所有的属性都是分类的,即离散值。连续属性必须离散化。n对测试属性的每个已
28、知的值,创建一个分枝,并据此划分样本(步骤8-10)。n算法使用同