华工人工智能id3算法问题详解-基于信息熵的id3算法

华工人工智能id3算法问题详解-基于信息熵的id3算法

ID:32879626

大小:102.00 KB

页数:4页

时间:2019-02-17

华工人工智能id3算法问题详解-基于信息熵的id3算法_第1页
华工人工智能id3算法问题详解-基于信息熵的id3算法_第2页
华工人工智能id3算法问题详解-基于信息熵的id3算法_第3页
华工人工智能id3算法问题详解-基于信息熵的id3算法_第4页
资源描述:

《华工人工智能id3算法问题详解-基于信息熵的id3算法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、华工人工智能ID3算法问题详解基于信息熵的ID3算法ID3算法是一个典型的决策树学习算法,其核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的合适属性。这样就可以选择具有最高信息增益属性作为当前节点的测试属性,以便使用该属性所划分获得的训练样本子集进行分类所需信息最小。定义1 设U是论域,是U的一个划分,其上有概率分布,则称:为信源X的信息熵,其中对数取以2为底,而当某个为零时,则可以理解为。定义2设是一个信息源,即是U的另一个划分,,,则已知信息源X是信息源Y的条件熵H(Y

2、X)定义为:其中为事件发生时信息源Y的条件熵。在ID3算法分类问题中

3、,每个实体用多个特征来描述,每个特征限于在一个离散集中取互斥的值。ID3算法的基本原理如下:设是n维有穷向量空间,其中是有穷离散符号集。E中的元素称为样本空间的例子,其中,。为简单起见,假定样本例子在真实世界中仅有两个类别,在这种两个类别的归纳任务中,PE和NE的实体分别称为概念的正例和反例。假设向量空间E中的正、反例集的大小分别为P、N,由决策树的基本思想,ID3算法是基于如下2种假设:(1)在向量空间E上的一棵正确的决策树对任意样本集的分类概率同E中的正、反例的概率一致。(2)根据定义1,一棵决策树对一样本集做出正确分类,所需要的信息熵为:如果选择属性A作为决策树的根,A取V个不同的值,

4、利用属性A可以将E划分为V个子集,其中包含了E中属性A取值的样本数据,假设中含有个正例和个反例,那么子集所需要的期望信息是,以属性A为根所需要的期望熵为:其中,以A为根的信息增益是:ID3算法选择最大的属性作为根节点,对的不同取值对应的E的V个子集递归调用上述过程生成的的子节点。ID3算法的基本原理是基于两类问题的,但是它很容易被扩展到多类问题。设样本集S共有C类样本,每类的样本数为。如果以属性A作为决策树的根,A具有V个值,它将E划分为V个子集。假设中含有的第j类样本个数为,那么子集的信息量,即熵为:以A为根分类后的信息熵为:选择属性,使最小,信息增益将最大。实际上,能正确分类训练集的决策

5、树不止一棵。ID3算法能得出节点最小的决策树。在ID3算法的每一个循环过程中,都对训练集进行查询以确定属性的信息增益,然而此时的工作只是查询样本的子集而没有对其分类。为了避免访问全部数据集,ID3算法采用了称为窗口(Windows)的方法,窗口随机性是从数据集中选择一个子集。采用该方法会大大加快构建决策树的速度。ID3算法的主算法非常简单,首先从训练集中随机选择一个窗口(既含正例又含反例的样本子集),对当前的窗口形成一棵决策树;其次,对训练集(窗口除外)中例子用所得到的决策树进行类别判定,找出错判的例子。若存在错判的例子,把他们插入窗口,转到建树过程,否则停止。算法每迭代循环一次,生成的决策

6、树将会不同。ID3算法以一种从简单到复杂的爬山策略遍历这个假设空间,从空的树开始,然后逐步考虑更加复杂的假设。通过观察搜索空间和搜索策略,我们可以发现,它同样存在着一些优势和不足。ID3算法的优点:(1)ID3算法的假设空间包含所有的决策树,搜索空间也是完整的假设空间。因为每个有限离散值函数可以被表示为某个决策树,所以它避免了假设空间可能不包含目标函数的风险。(2)ID3算法在搜索的每一步都使用当前的所有训练样本,以信息增益的标准为基础决定怎样简化当前的假设。使用信息增益这一统计属性的一个优点是大大降低了对个别训练样例错误的敏感性,因此,通过修改算法可以很容易地扩展到处理含有噪声的训练样本。

7、(3)ID3算法采用自顶向下的搜索策略,搜索全部空间的一部分,确保所作的测试次数较少,分类速度较快。算法的计算时间与样本例子个数、特征个数、节点个数三者的乘积呈线性关系。(4)ID3算法与最基础的决策树算法一样,非常适合处理离散值样本数据,并且利用树型结构的分层的效果,可以轻而易举地提取到容易理解的If-Then分类规则。(5)由于引进了信息熵的概念,ID3算法能得出节点数最少的决策树。ID3算法存在的不足之处(1)当遍历决策树空间时,ID3算法仅维护单一的当前假设,它失去了表示所有一致假设带来的优势。比如,它不能判断有多少其他的决策树也是与现有的训练数据一致的,或者使用新的实例查询来最优地

8、区分这些竞争的假设。(2)ID3算法在搜索中不进行回溯,每当在树的某一层选择了一个属性进行测试,它不会再回溯重新考虑这个选择。这样,算法容易收敛到局部最优的答案,而不是全局最优的。(3)ID3算法使用的基于互信息的计算方法依赖于属性值数目较多的属性,但是属性值较多的属性不一定是分类最优的属性。(4)ID3算法是一种贪心算法,对于增量式学习任务来说,由于它不能增量地接受训练样例,使得每增加一次实例都必须抛弃原有

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。