数据挖掘中分类算法综述_李玲俐

数据挖掘中分类算法综述_李玲俐

ID:14326515

大小:241.16 KB

页数:4页

时间:2018-07-27

数据挖掘中分类算法综述_李玲俐_第1页
数据挖掘中分类算法综述_李玲俐_第2页
数据挖掘中分类算法综述_李玲俐_第3页
数据挖掘中分类算法综述_李玲俐_第4页
资源描述:

《数据挖掘中分类算法综述_李玲俐》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、2011年7月重庆师范大学学报(自然科学版)Jul.2011第28卷第4期JournalofChongqingNormalUniversity(NaturalScience)Vol.28No.4DOI:CNKI:50-1165/N.20110707.1744.011*数据挖掘中分类算法综述李玲俐(广东司法警官职业学院信息管理系,广州510520)摘要:对分类算法中需要解决的关键问题进行了分析;综述了不同分类算法的思想和特性,决策树分类算法能够很好地处理噪声数据,但只对规模较小训练样本集有效;贝叶斯分类算法精度高、速度快,错误率

2、低,但分类不够准确;传统的基于关联规则算法分类准确率高,但容易受硬件内存的制约;支持向量机算法分类准确率高、复杂度低,但速度慢。针对各种分类算法的缺陷,结合其优点,论述了当前一些速度更快、准确率更高、能实现更好分类效果的新算法,如多决策树综合技术、基于先验信息和信息增益的混合分类算法,基于粗糙集和遗传算法的神经网络分类算法等;对数据挖掘分类算法作了展望,提出今后的研究重点。关键词:数据挖掘;分类;综述中图分类号:TP391文献标志码:A文章编号:1672-6693(2011)04-0044-04[4]数据挖掘是从海量数据中获取

3、有用知识和价值的属性是连续的,有的则是离散或混合的。经典的过程,是数据库技术自然演化的结果。数据挖掘的分类算法都有在不同的领域取得成功,比如决策已广泛应用于零售、金融、保险、医疗、通讯等行业,树分类算法用于医疗诊断、金融分析、评估贷款申请并展现出了其强大的知识发现的能力。在数据挖掘的信用风险等广阔领域;支持向量机分类算法应用的研究与应用中,分类(Classification)算法一直受学于模式识别、基因分析、文本分类、语音识别、回归分术界的关注,它是一种有监督的学习,通过对已知类析等领域;由于对噪声数据具有很好的承受能力,神别

4、训练集的分析,从中发现分类规则,以此预测新数经网络广泛应用在字符识别、分子生物学、语音识别[1]据的类别。数据分类算法中,为建立模型而被分和人脸识别等领域。但每种分类算法都存在优缺析的数据元组组成的数据集合称为训练数据集,训点,加上数据的多样性以及实际问题的复杂性,使到练数据集中的单个样本(或元组)称为训练样本。目前为止,没有哪一种算法优于其他分类算法。例分类算法是将一个未知样本分到几个已存在类的过如,尚未有一种分类算法在任何数据集合下生成决[2]程,主要包含两个步骤:第1步,根据类标号已知策树的质量方面超过其他算法;神经网络

5、是基于经的训练数据集,训练并构建一个模型,用于描述预定验风险最小化原则的学习算法,本身存在一些固有的数据类集或概念集;第2步,使用所获得的模型,的缺陷,而这些缺陷在SVM算法中可以得到很好解对将来或未知的对象进行分类。决。所以,如何寻找合适的分类算法是实际应用中亟待解决的问题。1分类算法中的关键问题分析2数据挖掘的主要分类算法不同的分类算法有不同的特性,完成不同的任务。目前很多分类算法被机器学习、专家系统、统计数据挖掘的分类算法有多种,本文重点描述决学和神经生物学等的研究者从不同角度提出,判断策树、贝叶斯、基于关联规则、支持向

6、量机等分类算不同分类算法的好坏可以由准确率、速度、健壮性、法的特性及其新发展。[3]可伸缩性、可解释性等几个标准来衡量。2.1决策树分类算法另外,分类算法的效果通常和数据的特点有关,决策树分类算法也称为贪心算法,采用自顶向有的数据有空缺值,有的噪声大,有的分部稀疏,有下的分治方式构造,它从一组无次序、无规则的事例*收稿日期:2011-05-16网络出版时间:2011-07-0717∶44∶00作者简介:李玲俐,女,讲师,硕士,研究方向为数据挖掘与模式识别。网络出版地址:http://www.cnki.net/kcms/deta

7、il/50.1165.N.20110707.1744.201104.44_011.html第4期李玲俐:数据挖掘中分类算法综述45[3]中推理出决策树表示形式的分类规则,是以实例贝叶斯(Beyes)分类算法基于概率统计学的贝为基础的归纳学习方法。决策树分类算法对噪声数叶斯定理,是一种在先验概率与类条件概率已知的据有很好的健壮性,能够学习析取表达式,是最为广情况下,预测类成员关系可能性的模式分类算法,如泛使用的分类算法之一。计算一个给定样本属于一个特定类的概率,并选定决策树的每个内部节点(非叶节点)表示在一其中概率最大的一个类别

8、作为该样本的最终类别。个属性上的测试,每个分枝代表一个测试输出,每个假设每个训练样本用一个n维特征向量X={x1,叶节点代表类或类分布,树的顶层节点是根节点。x2,…,xn}表示,分别描述n个属性A1,A2,…,An对决策树算法通过将样本的属性值与决策树相比较,样本的测量。将

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。