数据挖掘原理与应用教师用书精简版.docx

数据挖掘原理与应用教师用书精简版.docx

ID:57613249

大小:298.97 KB

页数:8页

时间:2020-08-29

数据挖掘原理与应用教师用书精简版.docx_第1页
数据挖掘原理与应用教师用书精简版.docx_第2页
数据挖掘原理与应用教师用书精简版.docx_第3页
数据挖掘原理与应用教师用书精简版.docx_第4页
数据挖掘原理与应用教师用书精简版.docx_第5页
资源描述:

《数据挖掘原理与应用教师用书精简版.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、给定如表3-4所示事务数据库画出FP-treeItemSCPc5b4d3e3a2决策树容易转换成分类规则,试把图4-1转化为分类规则Ifage<=30andstudent=noThenbuys_computer=noIfage<=30andstudent=yesThenbuys_computer=yesIfage>30andage<=40Thenbuys_computer=yesIfage>40andcredit_rating=excellentThenbuys_computer=noIfage>40andcredit_rating=fairThenbuys_comp

2、uter=yes下面的例子被分为3类{short,tall,Medium}(0,1.6)(1.6,1.7)..(2.0,无穷)P(Output=“Short”)=4/14=0.267;P(Output=“Medium”)=8/15=0.533P(Output=“Tall”)=3/15=0.200P(Gender=“M”

3、Output=”Short”)=1/4=0.25P(Gender=“M”

4、Output=”Medium”)=2/8=0.25P(Gender=“M”

5、Output=”Tall”)=3/3=1P(Height=(1.9,2.0]

6、Output=”Shor

7、t”)=0/4=0P(Height=(1.9,2.0]

8、Output=”Medium=1/8=0.125P(Height=(1.9,2.0]

9、Output=”Short”)=1/3=0.33P(X

10、Output=”Short”)=0.24x0=0P(X

11、Output=”Medium”)=0.25x0.125=0.0313P(X

12、Output=”Tall”)=1x0.33=0.33P(X

13、Output=”Short”)P(Output=”Short”)=0x0.267=0P(X

14、Output=”Medium”)=0.25x0.125=0.0313x0.533=0.016

15、7P(X

16、Output=”Tall”)=0.33x0.2=0.066对于样本t=

17、22-20

18、2+

19、1-0

20、2+

21、42-36

22、+

23、10-8

24、2]1/2=(4+1+36+41)1/2=45/2=6.708(2)根据两个对象之间的绝对距离公式d(x,y)=得出:d(x,y)=(22-2

25、0)+(1-0)+(42-36)+(10-8)=2+1+6+2=1123.在表5-4中给定的样本上运行DIANA算法,假定算法的终止条件为三个簇,初始簇{1,2,3,4.5.6.7.8}.第一步,找到具有最大直径的簇,对簇中的每个点计算平均相异度1的平均距离:(5.000+8.485+3.606+7.071+7.211+8.062+2.236>/7=5.9532的平均距离:(5.000+6.082+4.243+5.000+4.123+3.162+4.472)/7=4.5833的平均距(8.485+6.082+5.000+1.414+2.000+7.280+6.403)

26、/7=5.2384的平均距离:(3.606+4.243+5.000+3.606+4.123+7.211+1.414)/7=4.1725的平均距离:(7.071+5.000+1.414+3.606+1.414+6.708+5.000/7=4.3166的平均距离:(7.211+4.123+2.000+4.123+1.414+5.385+5.385)/7=4.2347的平均距离:(8.062+3.162+7.280+7.211+6.708+5.385+7.616)/7=6.4898的平均距离:(2.236+4.472+6.403+1.414+5.000+5.385+7.61

27、6>/7=4.647挑出平均相异度最大的点7放到splintergroup中,剩余点在oldparty中。第二步,在oldparty里找出到最近的splintergroup中的点的距离不大于到oldparty中最近的点的距离的点,将该点放入splintergroup中,该点是2。第三步,没有新的oldparty中的点被分配给splintergroup,分裂簇数为2.第四步,具有最大直径的簇为(1.3,4,5.6.8)(具体属性值见表5-5.对簇中的每个点计算平均相异度。1的平均距离:(8.485+3.606+7.071+7.211+2.236)/5=

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。