医学数据挖掘—SQL Server 2005案例分析 周怡 王世伟 主编 医学数据挖掘第3章

医学数据挖掘—SQL Server 2005案例分析 周怡 王世伟 主编 医学数据挖掘第3章

ID:40241182

大小:5.93 MB

页数:44页

时间:2019-07-28

医学数据挖掘—SQL Server 2005案例分析 周怡 王世伟 主编 医学数据挖掘第3章_第1页
医学数据挖掘—SQL Server 2005案例分析 周怡 王世伟 主编 医学数据挖掘第3章_第2页
医学数据挖掘—SQL Server 2005案例分析 周怡 王世伟 主编 医学数据挖掘第3章_第3页
医学数据挖掘—SQL Server 2005案例分析 周怡 王世伟 主编 医学数据挖掘第3章_第4页
医学数据挖掘—SQL Server 2005案例分析 周怡 王世伟 主编 医学数据挖掘第3章_第5页
资源描述:

《医学数据挖掘—SQL Server 2005案例分析 周怡 王世伟 主编 医学数据挖掘第3章》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第三章决策树2本章要点一、引言二、什么是决策树三、决策树的建立(ID3算法)四、MicrosoftSQLServer2005实践决策树五、决策树的数据准备3你能判定他/她买计算机的可能性大不大吗?姓名年龄收入学生信誉电话地址邮编买计算机张三234000是良281-322-03282714Ave.M77388买李四342800否优713-239-78305606HollyCr78766买王二701900否优281-242-32222000BellBlvd.70244不买赵五18900是良281-550-054

2、4100MainStreet70244买刘兰342500否优713-239-7430606HollyCt78566买杨俊278900否优281-355-7990233RiceBlvd.70388不买张毅389500否优281-556-0544399SugarRd.78244买……一、引例4决策树的用途(一)5决策树的用途(二)计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中

3、是良买64青中是优买32中中否优买32中高是良买63老中否优不买1老中否优买假定公司收集了左表数据,那么对于任意给定的客人(测试样例),你能帮助公司将这位客人归类吗?即:你能预测这位客人是属于“买”计算机的那一类,还是属于“不买”计算机的那一类?又:你需要多少有关这位客人的信息才能回答这个问题?决策树可以帮助你解决好这个问题6决策树的用途(二)计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青

4、低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1老中否优买谁在买计算机?他/她会买计算机吗?年龄?学生?信誉?买青中老否是优良不买买买不买7决策树的用途(二)一棵很糟糕的决策树收入?学生?青中否是高低中信誉?良优年龄?不买买买不买计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不

5、买1老中否优买8二、什么是决策树决策树是一个类似于流程图的树状结构,是一种用来表示人们为了作出某一个决策而进行的一系列判断过程的树形图,这种方法用于表现“在什么条件下会得到什么值”之类的规则。*年龄?学生?信誉?买青中老否是优良否买买否9三、决策树的建立1.决策树建立的关键2.对测试样例的信息期望(Theexpectedinformationneededtoclassifyagivensample(中文可能称:评价函数))信息期望的分析与计算平均信息期望信息期望的减少(Gain)3.决策树建立步骤(例)*1

6、01.决策树建立的关键1、决策树建立的关键*树根?建立一个好的决策树的关键是决定树根和子树根的属性计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1老中否优买111.决策树建立的关键*年龄计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128青中否良不买64青低是良买64青中是优买计数年龄收

7、入学生信誉归类:买计算机?128中高否良买64中低是优买32中中否优买32中高是良买计数年龄收入学生信誉归类:买计算机?60老中否良买64老低是良买64老低是优不买132老中是良买63老中否优不买1老中否优买122.对测试样例的信息期望张三属于哪一类?为了回答该问题,对张三的信息期望值是多少?*年龄计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中

8、否优买32中高是良买63老中否优不买1老中否优买计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128青中否良不买64青低是良买64青中是优买计数年龄收入学生信誉归类:买计算机?128中高否良买64中低是优买32中中否优买32中高是良买计数年龄收入学生信誉归类:买计算机?60老中否良买64老低是良买64老低是优不买132老中是良买63老中否优不买1老中否优买信息期望=0信息期望=?信息期望=?

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。