机器学习决策树算法id3

机器学习决策树算法id3

ID:22076914

大小:498.00 KB

页数:12页

时间:2018-10-27

机器学习决策树算法id3_第1页
机器学习决策树算法id3_第2页
机器学习决策树算法id3_第3页
机器学习决策树算法id3_第4页
机器学习决策树算法id3_第5页
资源描述:

《机器学习决策树算法id3》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、WORD文档下载可编辑山东大学计算机学院实验报告实验题目:决策树算法ID3学号:日期:2016.12.6班级:2014级4班姓名:Email:实验目的:1.熟悉matlab环境及相关函数的熟练使用。2.学习如何构造一棵决策树,并且用matlab画出树形状。3.学习如何使用一棵决策树,即将测试数值代入时,如何判断属于哪一类。4.会写测试集代入的分类表达式和类别的逻辑表达式并化简。5.分析该算法准确性。硬件环境: windows10操作系统软件环境:matlab环境,AzureML平台实验步骤:一、背景知识及原理决策树算法:树状结构,每一个叶子节

2、点对应着一个分类决策树方法在分类、预测、规则提取等领域有着广泛的应用。在20世纪70年代后期和80年代初期,机器学习研究者J.RossQuinilan提出了ID3算法专业资料分享WORD文档下载可编辑以后,决策树在机器学习、数据挖掘领域得到极大的发展。Quinilan后来又提出了C4.5,成为新的监督学习算法。1984年几位统计学家提出了CART分类算法。ID3和ART算法大约同时被提出,但都是采用类似的方法从训练样本中学习决策树的。决策树是一树状结构,它的每一个叶子节点对应着一个分类,非叶子节点对应着在某个属性上的划分,根据样本在该属性上的

3、不同取值将其划分成若干个子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本进行拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下分而治之的过程。ID3算法简介及基本原理 ID3算法基于信息熵来选择最佳的测试属性,它选择当前样本集中具有最大信息增益值的属性作为测试属性;样本集的划分则依据测试属性的取值进行,测试属性有多少个不同的取值就将样本集划分为多少个子样本集,同时决策树上相应于该样本集的节点长出新的叶子节点。ID3算法根据信息论的理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量不

4、确定性:信息增益值越大,不确定性越小。因此,ID3算法在每个非叶节点选择信息增益最大的属性作为测试属性,这样可以得到当前情况下最纯的划分,从而得到较小的决策树。专业资料分享WORD文档下载可编辑设S是s个数据样本的集合。假定类别属性具有m个不同的值:,设是类中的样本数。对一个给定的样本,它总的信息熵为,其中,是任意样本属于的概率,一般可以用估计。设一个属性A具有k个不同的值,利用属性A将集合S划分为k个子集,其中包含了集合S中属性A取值的样本。若选择属性A为测试属性,则这些子集就是从集合S的节点生长出来的新的叶节点。设是子集中类别为的样本数,

5、则根据属性A划分样本的信息熵为 其中,,是子集中类别为的样本的概率。最后,用属性A划分样本集S后所得的信息增益(Gain)为显然专业资料分享WORD文档下载可编辑越小,Gain(A)的值就越大,说明选择测试属性A对于分类提供的信息越大,选择A之后对分类的不确定程度越小。属性A的k个不同的值对应的样本集S的k个子集或分支,通过递归调用上述过程(不包括已经选择的属性),生成其他属性作为节点的子节点和分支来生成整个决策树。ID3决策树算法作为一个典型的决策树学习算法,其核心是在决策树的各级节点上都用信息增益作为判断标准来进行属性的选择,使得在每个非

6、叶子节点上进行测试时,都能获得最大的类别分类增益,使分类后的数据集的熵最小。这样的处理方法使得树的平均深度较小,从而有效地提高了分类效率。ID3算法的具体流程 1)对当前样本集合,计算所有属性的信息增益; 2)选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划为同一个子样本集; 3)若子样本集的类别属性只含有单个属性,则分支为叶子节点,判断其属性值并标上相应的符号,然后返回调用处;否则对子样本集递归调用本算法。二、实验步骤1.因为以前经常使用微软的Azure平台,这次仍然想用这个平台实验一下。测试使用决策树算法求出的准确率和召回率

7、等以及改变参数对结果的影响。a.两分类决策树(第一个图是数据,前12个数据;第二个图是平台上的流程图)专业资料分享WORD文档下载可编辑参数配置:(随机种子0,0.25的测试集)结果:测试集共3个数据,分错了2个,准确率为33.3%,召回率1%。专业资料分享WORD文档下载可编辑通过可视化平台的结果对比可以发现决策树算法的准确率很低,我感觉这个的原因是数据太少,所以偶然性太强,数据若是多一些,可能会好一些。2.开始自己着手写matlab程序,刚开始看到题感觉挺简单的,不就是算出熵,然后算信息增益得到每次要判断的属性,那树不就画出来了么。然而事

8、实告诉我,用笔算的简单但是写程序就不那么容易了。每次传进去的是一批数据,得根据数据去画树。然后我就通过看清华大学那本机器学习的书,找到了一个伪代码的算法,思路没有错

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。