最新数据挖掘作业讲解学习上课讲义.doc

最新数据挖掘作业讲解学习上课讲义.doc

ID:60768516

大小:312.50 KB

页数:6页

时间:2020-12-16

最新数据挖掘作业讲解学习上课讲义.doc_第1页
最新数据挖掘作业讲解学习上课讲义.doc_第2页
最新数据挖掘作业讲解学习上课讲义.doc_第3页
最新数据挖掘作业讲解学习上课讲义.doc_第4页
最新数据挖掘作业讲解学习上课讲义.doc_第5页
资源描述:

《最新数据挖掘作业讲解学习上课讲义.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“31…35”表示31到35的之间。对于给定的行,count表示department,status,age和salary在该行上具有给定值的元组数。status是类标号属性。 departmentstatusagesalarycountsalessenior31...3546K...50K30salesjunior26...3026K...30K40salesjunior31...3531K...35K40systemsjunior21...

2、2546K...50K20systemssenior31...3566K...70K5systemsjunior26...3046K...50K3systemssenior41...4566K...70K3marketingsenior36...4046K...50K10marketingjunior31...3541K...45K4secretarysenior46...5036K...40K4secretaryjunior26...3026K...30K6 1)如何修改基本决策树算法,以便考虑每

3、个广义数据元组(即每个行)的count。Status分为2个部分:Department分为4个部分:Senior共计52Sales共计110Junior共计113Systems共计31Marketing共计14Secretary共计10Age分为6个部分:Salary分为6各部分:21…25共计2026K…30K共计4626…30共计4931K…35K共计4031…35共计7936K…40K共计436…40共计1041K…45K共计441…45共计346K…50K共计6346…50共计466K…70

4、K共计8位位位位由以上的计算知按信息增益从大到小对属性排列依次为:salary、age、department,所以定salary作为第一层,之后剩下的数据如下:departmentstatusagesalarycountsalessenior31...3546K...50K30systemsjunior21...2546K...50K20systemsjunior26...3046K...50K3marketingsenior36...4046K...50K10由这个表可知department和ag

5、e的信息增益将都为0。所以第二层可以为age也可以为department。2)构造给定数据的决策树。由上一小问的计算所构造的决策树如下:Salary26K:30K66K:70K31K:35KJunior36K:40KSenior46K:50K41K:45KJuniorJuniorSeniorAge21:2536:4031:3526:30JuniorSeniorSeniorJunior3)给定一个数据元组,它在属性department, age和salary上的值分别为“systems”,“26...

6、30 ”和“46...50K”。该元组status的朴素贝叶斯分类结果是什么?P(status=senior)=52/165=0.3152P(status=junior)=113/65=0.6848P(department=systems

7、status=senior)=8/52=0.1538P(department=systems

8、status=junior)=23/113=0.2035P(age=26…30

9、status=senior)=1/52=0.0192P(age=26…30

10、status=

11、junior)=49/113=0.4336P(salary=46K…50K

12、status=senior)=40/52=0.7692P(salary=46K…50K

13、status=junior)=23/113=0.2035使用上面的概率,得到:P(X

14、status=senior)=P(department=systems

15、status=senior)*P(age=26…30

16、status=senior)*P(salary=46K…50K

17、status=senior)=0.0023P(X

18、status=

19、junior)=P(department=systems

20、status=junior)*P(age=26…30

21、status=junior)*P(salary=46K…50K

22、status=junior)=0.0180P(X

23、status=senior)*P(status=senior)=7.2496e-004P(X

24、status=junior)*P(status=junior)=0.0123因此,对于元组X,朴素贝叶斯分类预测元组X的类为status=junior2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。