欢迎来到天天文库
浏览记录
ID:18460240
大小:1.21 MB
页数:7页
时间:2018-09-18
《数据挖掘的复习资料》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1覆盖算法首先寻找一个规则If?thenrecommendation=hardage=young2/8age=pre-presbyopic1/8age=presbyopic1/8spectacleprescription=myope3/12spectacleprescription=hypermetrope1/12astigmatism=no0/12astigmatism=yes4/12tearproductionrate=reduced0/12tearproductionrate=normal4/12选择最大一个比例值4/12,即第7个和最后一个之间任意选一个,建立规则:Ifastigm
2、atism=yesthenrecommendation=hardIfastigmatism=yesand?thenrecommendation=hardage=young2/4age=pre-presbyopic1/4age=presbyopic1/4spectacleprescription=myope3/6spectacleprescription=hypermetrope1/6tearproductionrate=reduced0/6tearproductionrate=normal4/6Ifastigmatism=yesandtearproductionrate=normalthe
3、nrecommendation=hard一个选择条件仅覆盖2个正确的实例,另一个覆盖了3个。因此,在同等条件下,总是选择拥有更大覆盖量的那个规则,所以最终的规则为:Ifastigmatism=yesandtearproductionrate=normalandspectacleprescription=myopethenrecommendation=hard仅包含4个建议使用硬的隐形眼镜情况中的3个。因此,从实例集中删除这3个实例,并且重新开始寻找另一种形式的规则:If?thenrecommendation=hardage=young是作为第一个条件的最佳选择第2个条件的最佳选择是asti
4、gmatism=yes,选择的是1/3(实际上还存在一个相同比例的值)Ifage=youngandastigmatism=yesandtearproductionrate=normalthenrecommendation=hardIfastigmatism=yesandtearproductionrate=normalandspectacleprescription=myopethenrecommendation=hard现在所有的硬的隐形眼镜的实例都已经覆盖了。下一步是用相同的步骤生成软的隐形眼镜的规则。最后生成none类别的规则。2.平滑规则等深:每个箱中的数据个数相等等宽:每个箱的取
5、值区间大小相等用户自定义区间:自己分布数据区间例:假设数据集中客户收入属性income排序后的值(人民币元):800,1000,1200,1500,1500,1800,2000,2300,2500,2800,3000,3500,4000,4500,4800,5000,对此进行分箱技术,结果为:等深:设定箱子深度为4,分箱后箱1:800,1000,1200,1500箱2:1500,1800,2000,2300箱3:2500,2800,3000,3500箱4:4000,4500,4800,5000等宽:设定箱子宽度为1000元人民币,分箱后箱1:800,1000,1200,1500,1500,
6、1800箱2:2000,2300,2500,2800,3000箱3:3500,4000,4500箱4:4800,5000用户自定义:如果客户收入划分为1000元以下、1000~2000,2000~3000,3000~4000和4000元以上几组,分箱后箱1:800,箱2:1000,1200,1500,1500,1800,2000箱3:2300,2500,2800,3000箱4:3500,4000箱5:4500,4800,5000(1)平均值平滑将同一箱中的数据全部用该箱中数据的平均值替换。等宽:设定箱子宽度为1000元人民币,分箱后箱1:800,1000,1200,1500,1500,18
7、00箱2:2000,2300,2500,2800,3000箱3:3500,4000,4500箱4:4800,5000平滑后箱1:1300,1300,1300,1300,1300,1300箱2:2520,2520,2520,2520,3520箱3:4000,4000,4000箱4:4900,4900(2)边界平滑将同一箱中的数据分别用该箱中最近的边界值替换。(对于箱子中的每一个数据,观察它和箱子两个边界值的距离,用距离较小
此文档下载收益归作者所有