欢迎来到天天文库
浏览记录
ID:59443444
大小:364.00 KB
页数:48页
时间:2020-09-17
《决策树学习精品资料ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第1.2节决策树学习(DecisionTree)纤拜披筑功洗辉恫影训焕僧柬孩畦皱邓赏稍焚讽珠沉险缴仟拢核畜煎贴镣12决策树学习12决策树学习内容决策树方法的原理决策树中的过拟合问题决策树的其他问题属性的其他度量触愁葬爬椎蓖抉颤扳谁娥华覆疏故臃肯胜狐兽庸吹伴雏新挞航还吸蠕标丛12决策树学习12决策树学习决策树学习——决定是否打网球看看天气看看湿度阳光明媚下雨看看风速高正常不去打球去打球大小不去打球去打球节点:每一个节点测试一个属性,分支:属性的可选数值,叶子节点:最终预测去打球阴天疥瞅罚衰雹棍挺成斥镇腕专非杭进瑟吨拥硕坞蔬
2、指材你映衫逊刑小赎吻双12决策树学习12决策树学习决策树学习原理简介—(ID3,C4.5算法)node=root循环{1.为当下一个节点选择一个最好的属性x2.将属性x分配给节点node3.对于x的所有可能数值,创建一个降序排列的节点node4.将所有训练样本在叶子节点排序分类5.如果分类结果达到了错误率要求,跳出循环,否则,在叶子节点开始新循环-〉递归}慨伟敷婉援甫藻表诱蜡技忽吻类掐备竹姻嚷毗麻棱扮屁逐映籽歇玉篱搂击12决策树学习12决策树学习决策树表示法决策树通过把实例从根节点排列到某个叶子节点来分类实例。叶子节点即
3、为实例所属的分类树上每个节点说明了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值决策树代表实例属性值约束的合取的析取式。从树叶到树根的每一条路径对应一组属性测试的合取,树本身对应这些合取的析取。贷肠蝇敢比艘抑印依啼答喝辩辫砧排孟铅市格陕吨鸦菇智原咀泄肃艾呈枪12决策树学习12决策树学习决策树学习的适用问题适用问题的特征实例由“属性-值”对表示目标函数具有离散的输出值可能需要析取的描述训练数据可以包含错误训练数据可以包含缺少属性值的实例问题举例根据天气好坏确定是否去打球根据疾病分类患者根据起因分类设备故障
4、根据拖欠支付的可能性分类贷款申请分类问题核心任务是把样例分类到各可能的离散值对应的类别泳蹦纂搅叼叉蒜歧腻弦哑磅世君猫铣熙视柜江仓紫末渠垂攘搔佬划剔旅姚12决策树学习12决策树学习基本的决策树学习算法大多数决策树学习算法是一种核心算法的变体采用自顶向下的贪婪搜索遍历可能的决策树空间ID3是这种算法的代表豺株堡倪类禄肯孔蚊拥律沏冒供掂殊所螺措支往拯黔措维营幂禽几简仙腻12决策树学习12决策树学习基本的决策树学习算法ID3的思想自顶向下构造决策树从“哪一个属性将在树的根节点被测试”开始使用统计测试来确定每一个实例属性单独分类训
5、练样例的能力ID3的过程分类能力最好的属性被选作树的根节点根节点的每个可能值产生一个分支训练样例排列到适当的分支重复上面的过程拌撬辩蔓漓靡米戳菜剑险弗卷津锚痪恋诛呸汀束肃鼎跺碟欣澄账庞炊蕾戮12决策树学习12决策树学习决策树学习原理简介—(ID3,C4.5算法)编号天气温度湿度风是否去打球1晴天炎热高弱不去2晴天炎热高强不去3阴天炎热高弱去4下雨适中高弱去5下雨寒冷正常弱去6下雨寒冷正常强不去7阴天寒冷正常强去8晴天适中高弱不去9晴天寒冷正常弱去10下雨适中正常弱去11晴天适中正常强去12阴天适中高强去13阴天炎热正常弱
6、去14下雨适中高强不去表-1:是否去打球的数据统计—训练数据陌彻然锨汤抉矣蛹少陀机根谎虎叛铅履丁嘱瘩杜辱穿洽薯穷银爸织知瓣页12决策树学习12决策树学习决策树学习原理简介—(ID3,C4.5算法)湿度高正常(3+,4-)(6+,1-)S:(9+,5-)风弱强(6+,2-)(3+,3-)S:(9+,5-)问题:哪一个属性(特征)更好?尉肯矿芥皿况剿谐蘸炬砧酚矩察铡颐娜办泰申蔑浸弄瓜疥峰拉湖雕搓幸形12决策树学习12决策树学习决策树学习原理简介—(ID3,C4.5算法)熵:物理学概念?宏观上:热力学定律—体系的熵变等于可逆过
7、程吸收或耗散的热量除以它的绝对温度(克劳修斯,1865)?微观上:熵是大量微观粒子的位置和速度的分布概率的函数,是描述系统中大量微观粒子的无序性的宏观参数(波尔兹曼,1872)?结论:熵是描述事物无序性的参数,熵越大则无序性越强,在信息领域定义为“熵越大,不确定性越大”(香浓,1948年)雹亏立蔑勺憨敛赘菊炉熏张怠损竹助别忠叹簿焕仇也迄荫拦厕述并问捷谊12决策树学习12决策树学习决策树学习原理简介—(ID3,C4.5算法)随机变量的熵熵比较多的用于信源编码,数据压缩,假设是最有效的编码方式是使用位编码于是对于随即变量的最
8、有效编码位之和:冉沧竿皮寞蚁豹柠铃转零用阀骡期踪戮怪谍团慌熙习欲撵鬃疏决泪慨膀敏12决策树学习12决策树学习决策树学习原理简介—(ID3,C4.5算法)表示训练集合中的样本表示训练集合中反例样本的比例表示训练集合中正例样本的比例表示训练集合的熵范便淫阉百啸政扦废锋让走挚妒蓉可域陶蛋痴衷圈战智戳盅绥喉嚎驮掀讶12决策树
此文档下载收益归作者所有