决策树分类算法的应用、进展和发展前景

决策树分类算法的应用、进展和发展前景

ID:37081906

大小:254.41 KB

页数:23页

时间:2019-05-11

决策树分类算法的应用、进展和发展前景_第1页
决策树分类算法的应用、进展和发展前景_第2页
决策树分类算法的应用、进展和发展前景_第3页
决策树分类算法的应用、进展和发展前景_第4页
决策树分类算法的应用、进展和发展前景_第5页
资源描述:

《决策树分类算法的应用、进展和发展前景》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、机器学习第3章决策树学习决策树分类算法的进展决策树分类算法的发展前景2003.11.181机器学习-决策树学习译者:曾华军等作者:Mitchell讲者:陶晓鹏主要决策树算法最早的决策树算法是由Hunt等人于1966年提出的CLS。当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。其它早期算法主CART、FACT、CHAID算法。后期的算法主要有SLIQ、SPRINT、PUBLIC等。2003.11.182机器学习-决策树学习译者:曾华军等作者:Mitchell讲者:陶晓鹏决策树分类算法的进展传统的决策树分类算法主要是针对小数据集的,大都要求训练

2、集常驻内存,这使得在处理数据挖掘任务时,传统决策树算法在可伸缩性、精度和效率方面受到了很大的限制。而在实际的数据挖掘应用中我们面临的数据集往往是容量巨大的数据库或者数据仓库,在构造决策树时需要将庞大的数据在主存和缓存中不停的导入导出使得运算效率大大降低。针对以上问题许多学者提出了处理大型数据集的决策树算法。下面我们分三个方面对一些算法的改进进行讨论。2003.11.183机器学习-决策树学习译者:曾华军等作者:Mitchell讲者:陶晓鹏1、数据预处理数据挖掘处理的是海量数据集不仅样本容量大、含有的属性集大而且数据中往往含有一些与挖掘任务不相关和无意义的部分。在这样的数据集上进行分析会

3、花费很长时间使得挖掘任务不可行。此外决策者有时需要在数据的多个抽象层上进行分析以获得有价值的信息。在这种情况下我们需要先用过滤、概化和归约等方法对数据进行预处理然后再对预处理后的数据集进行挖掘。2003.11.184机器学习-决策树学习译者:曾华军等作者:Mitchell讲者:陶晓鹏1、数据预处理数据概化是指将数据集从较低的概念层抽象到较高的概念层。面向属性的归纳(AOI)是一种有用的概化方法它考查数据集中每个属性的不同取值,通过属性删除或者属性概化等操作在给定的概念分层上概化数据库,由此抽取有意义的知识。使用AOI方法可能出现的问题是:如果属性概化得太高可能导致过分概化,产生的规则可

4、能没有多少信息;而如果属性概化不到足够高的层次,则可能概化不足,得到的规则可能也不含多少信息。因此面向属性的概化应当把握好尺度。2003.11.185机器学习-决策树学习译者:曾华军等作者:Mitchell讲者:陶晓鹏1、数据预处理针对这个问题,有专家提出了一种新的基于信息增益比的数据概化方法ITA。其基本思想是给定一组候选的提取分层,ITA选择一个最优的提取并对原始数据库进行概化。其操作步骤可以概括为从原始数据库中选定某一属性,计算属性的信息增益比,假设其值为I1;对于候选提取分层中的每一种提取,计算其针对选定属性的信息增益比,选择信息增益比最大的提取,假设该提取的信息增益比为I2;

5、计算I2/I1,若商大于给定阈值,则对属性值进行概化,否则删除该属性。ITA较好地保留了原始数据库中的类分布,数据库的尺寸也大大减小。这使得产生的决策树更加紧凑,大大减小了树的尺寸,而且精度也没有明显地降低。此外它适当地控制了面向属性归纳中的概化过程,自动选择对数据库的最优概化,弥补了AOI的缺陷。之后,又进一步提出了迭代ITA的思想,并将其应用于C4.5的每一次属性选择的迭代过程,更好地保留了原始数据库中的类分布。2003.11.186机器学习-决策树学习译者:曾华军等作者:Mitchell讲者:陶晓鹏1、数据预处理在实际应用中数据集往往含有很多的属性,而有一些属性是多余的。直接利用

6、这种数据集来产生决策树会增加存储和计算方面的负担。在这种情况下,对数据集进行压缩或者精简是必要的。利用粗糙集理论中的不可分辨关系将数据集进行属性归约和数据过滤,去除与决策无关的多余信息也是当前比较热门的研究。将利用粗糙集简化后的数据集作为输入产生的决策树会更加紧凑。2003.11.187机器学习-决策树学习译者:曾华军等作者:Mitchell讲者:陶晓鹏2、抽样方法在进行数据挖掘的分类任务时利用抽样方法也可以提高决策树的效率,特别是当我们对算法的效率要求很高时。在构建决策树时可以对数据集进行抽样,也可以在产生节点的过程中对节点进行抽样。对数据集进行抽样是指利用统计抽样方法抽取整个数据集

7、的一个子集,用该子集产生一棵决策树对未知样本进行分类或者从中抽取分类规则。这种做法的缺点在于,通过子集产生的决策树只能捕捉到整个数据集的大体的信息,有可能漏掉数据集中有价值的模式。因此这种做法是以牺牲精确度为代价来提高运算效率的。另一种抽样方法节点抽样是决策树方法中特有的我们主要对其进行介绍。2003.11.188机器学习-决策树学习译者:曾华军等作者:Mitchell讲者:陶晓鹏2、抽样方法树构造阶段在内部节点(属性)进行属性选择时,如果面对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。