数据挖掘的复习资料

数据挖掘的复习资料

ID:18460240

大小:1.21 MB

页数:7页

时间:2018-09-18

数据挖掘的复习资料_第1页
数据挖掘的复习资料_第2页
数据挖掘的复习资料_第3页
数据挖掘的复习资料_第4页
数据挖掘的复习资料_第5页
资源描述:

《数据挖掘的复习资料》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1覆盖算法首先寻找一个规则If?thenrecommendation=hardage=young2/8age=pre-presbyopic1/8age=presbyopic1/8spectacleprescription=myope3/12spectacleprescription=hypermetrope1/12astigmatism=no0/12astigmatism=yes4/12tearproductionrate=reduced0/12tearproductionrate=normal4/12选择最大一个比例值4/12,即第7个和最后一个之间任意选一个,建立规则:Ifastigm

2、atism=yesthenrecommendation=hardIfastigmatism=yesand?thenrecommendation=hardage=young2/4age=pre-presbyopic1/4age=presbyopic1/4spectacleprescription=myope3/6spectacleprescription=hypermetrope1/6tearproductionrate=reduced0/6tearproductionrate=normal4/6Ifastigmatism=yesandtearproductionrate=normalthe

3、nrecommendation=hard一个选择条件仅覆盖2个正确的实例,另一个覆盖了3个。因此,在同等条件下,总是选择拥有更大覆盖量的那个规则,所以最终的规则为:Ifastigmatism=yesandtearproductionrate=normalandspectacleprescription=myopethenrecommendation=hard仅包含4个建议使用硬的隐形眼镜情况中的3个。因此,从实例集中删除这3个实例,并且重新开始寻找另一种形式的规则:If?thenrecommendation=hardage=young是作为第一个条件的最佳选择第2个条件的最佳选择是asti

4、gmatism=yes,选择的是1/3(实际上还存在一个相同比例的值)Ifage=youngandastigmatism=yesandtearproductionrate=normalthenrecommendation=hardIfastigmatism=yesandtearproductionrate=normalandspectacleprescription=myopethenrecommendation=hard现在所有的硬的隐形眼镜的实例都已经覆盖了。下一步是用相同的步骤生成软的隐形眼镜的规则。最后生成none类别的规则。2.平滑规则等深:每个箱中的数据个数相等等宽:每个箱的取

5、值区间大小相等用户自定义区间:自己分布数据区间例:假设数据集中客户收入属性income排序后的值(人民币元):800,1000,1200,1500,1500,1800,2000,2300,2500,2800,3000,3500,4000,4500,4800,5000,对此进行分箱技术,结果为:等深:设定箱子深度为4,分箱后箱1:800,1000,1200,1500箱2:1500,1800,2000,2300箱3:2500,2800,3000,3500箱4:4000,4500,4800,5000等宽:设定箱子宽度为1000元人民币,分箱后箱1:800,1000,1200,1500,1500,

6、1800箱2:2000,2300,2500,2800,3000箱3:3500,4000,4500箱4:4800,5000用户自定义:如果客户收入划分为1000元以下、1000~2000,2000~3000,3000~4000和4000元以上几组,分箱后箱1:800,箱2:1000,1200,1500,1500,1800,2000箱3:2300,2500,2800,3000箱4:3500,4000箱5:4500,4800,5000(1)平均值平滑将同一箱中的数据全部用该箱中数据的平均值替换。等宽:设定箱子宽度为1000元人民币,分箱后箱1:800,1000,1200,1500,1500,18

7、00箱2:2000,2300,2500,2800,3000箱3:3500,4000,4500箱4:4800,5000平滑后箱1:1300,1300,1300,1300,1300,1300箱2:2520,2520,2520,2520,3520箱3:4000,4000,4000箱4:4900,4900(2)边界平滑将同一箱中的数据分别用该箱中最近的边界值替换。(对于箱子中的每一个数据,观察它和箱子两个边界值的距离,用距离较小

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。