欢迎来到天天文库
浏览记录
ID:51835779
大小:107.54 KB
页数:5页
时间:2020-03-16
《数据挖掘作业.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“31…35”表示31到35的之间。对于给定的行,count表示department,status,age和salary在该行上具有给定值的元组数。status是类标号属性。departmentstatusagesalarycountsalessenior31...3546K...50K30salesjunior26...3026K...30K40salesjunior31...3531K...35K40systemsjunior21...2546K...50K20systemssenior31...3566K...
2、70K5systemsjunior26...3046K...50K3systemssenior41...4566K...70K3marketingsenior36...4046K...50K10marketingjunior31...3541K...45K4secretarysenior46...5036K...40K4secretaryjunior26...3026K...30K61)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。Status分为2个部分:Department分为4个部分:Senior共计52Sales共计110Junior共计
3、113Systems共计31Marketing共计14Secretary共计10Age分为6个部分:Salary分为6各部分:21…25共计2026K…30K共计4626…30共计4931K…35K共计4031…35共计7936K…40K共计436…40共计1041K…45K共计441…45共计346K…50K共计6346…50共计466K…70K共计8 − − 탿 탿 ‴㈶⸷ =−log−−log−= Ǥ 位 − − − − 탿 탿 탿 −탿−탿 ‴㈶⸷ ࢋ ࢇ ࢋࢇ=− −log−−log− −log−−log− −
4、 − 탿 탿 탿 탿 −− −log−−log− −log−−log−= Ǥ 位 − − 1 ܕ‴ ࢋ ࢇ ࢋ‴ࢇ= ‴㈶⸷ − ‴㈶⸷ ࢋ ࢇ ࢋ‴ࢇ=Ǥ 位− − − ‴㈶⸷�ࢋ=− −log−−log− −log−−log− − − − − − − − 탿 탿 탿 탿 탿탿탿 −log−−log− −log−−log− −log−−log− − − 탿탿탿탿
5、− −log−−log−= Ǥ 位 ܕ‴�ࢋ= ‴㈶⸷ − ‴㈶⸷�ࢋ=Ǥ 位 − − − ‴㈶⸷ =− −log−−log− −log−−log− − − − − − − − −탿탿 탿 탿탿탿탿 −log−−log− −log−−log− −log−−log−= Ǥ탿 − − −탿−탿−탿−탿 − 位 ܕ‴ = ‴㈶⸷ − ‴㈶⸷ =ǤǤ位由以上的计算知按信息增益从大到小对属性排列依次为:salary、age、
6、department,所以定salary作为第一层,之后剩下的数据如下:departmentstatusagesalarycountsalessenior31...3546K...50K30systemsjunior21...2546K...50K20systemsjunior26...3046K...50K3marketingsenior36...4046K...50K10由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为department。2)构造给定数据的决策树。由上一小问的计算所构造的决策树如下:2Salary26K:30K
7、66K:70KJunior31K:35K36K:40KSenior41K:45K46K:50KJuniorSeniorJuniorAge21:2526:3036:4031:35JuniorJuniorSeniorSenior3)给定一个数据元组,它在属性department,age和salary上的值分别为“systems”,“26...30”和“46...50K”。该元组status的朴素贝叶斯分类结果是什么?P(status=senior)=52/165=0.3152P(status=junior)=113/6
此文档下载收益归作者所有