数据挖掘之分类算法的研究 毕业论文

数据挖掘之分类算法的研究 毕业论文

ID:339314

大小:79.24 KB

页数:8页

时间:2017-07-25

数据挖掘之分类算法的研究  毕业论文_第1页
数据挖掘之分类算法的研究  毕业论文_第2页
数据挖掘之分类算法的研究  毕业论文_第3页
数据挖掘之分类算法的研究  毕业论文_第4页
数据挖掘之分类算法的研究  毕业论文_第5页
资源描述:

《数据挖掘之分类算法的研究 毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘之分类算法的研究摘要:对分类算法中需要解决的关键问题进行了分析;综述了不同分类算法的思想和特性,决策树分类算法能够很好地处理噪声数据,但只能对规模较小的训练样本集有效;贝叶斯分类算法精度高、速度快、错误率低、但分类不够准确;传统的基于关联规则算法分类算法准确率高,但容易受硬件内存的制约;支持向量机算法分类准确率高、复杂性低,但速度慢。并且针对决策树分类算法的缺点进行了改进。关键字:数据挖掘,分类算法,决策树0引言数据挖掘是从海量数据中获取有用知识和价值的过程,是数据库技术自然演化的结果。数据

2、挖掘已广泛应用于零售、金融、保险、医疗、通讯等行业,并展现出了其强大的知识发现的能力。在数据挖掘的研究与应用中,分类(Classification)算法一直受学术界的关注,它是一种有监督的学习,通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。数据分类算法中,为建立模型而被分析的数据元组组成的数据集合称为训练数据集,训练数据集中的单个样本(或元组)称为训练样本。分类算法是将一个未知样本分到几个已存在类的过程,主要包含两个步骤:第1步,根据类标号已知的训练数据集,训练并构建一个模型,

3、用于描述预定的数据类集或概念集;第2步,使用所获得的模型,对将来或未知的对象进行分类。1分类算法中的关键问题不同的分类算法有不同的特性,完成不同的任务。目前很多分类算法被机器学习、专家系统、统计学和神经生物学等的研究者从不同角度提出,判断不同分类算法的好坏可以由准确率、速度、健壮性、可伸缩性、可解释性等几个标准来衡量。另外,分类算法的效果通常和数据的特点有关,有的数据有空缺值,有的噪声大,有的分部稀疏,有的属性是连续的,有的则是离散或混合的。经典的分类算法都有在不同的领域取得成功,比如决策树分类算法

4、用于医疗诊断、金融分析、评估贷款申请的信用风险等广阔领域;支持向量机分类算法应用于模式识别、基因分析、文本分类、语音识别、回归分析等领域;由于对噪声数据具有很好的承受能力,神经网络广泛应用在字符识别、分子生物学、语音识别和人脸识别等领域。但每种分类算法都存在优缺点,加上数据的多样性以及实际问题的复杂性,使到目前为止,没有哪一种算法优于其他分类算法。例如,尚未有一种分类算法在任何数据集合下生成决策树的质量方面超过其他算法;神经网络是基于经验风险最小化原则的学习算法,本身存在一些固有的缺陷,而这些缺陷在

5、SVM算法中可以得到很好解决。所以,如何寻找合适的分类算法是实际应用中亟待解决的问题。2数据挖掘的主要分类算法综述数据挖掘的分类算法有多种,本文重点描述决策树、贝叶斯、基于关联规则、支持向量机等分类算法的特性及其新发展。2.1决策树分类算法决策树分类算法也称为贪心算法,采用自顶向下的分治方式构造,它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,是以实例为基础的归纳学习方法。决策树分类算法对噪声数据有很好的健壮性,能够学习析取表达式,是最为广泛使用的分类算法之一[1]。决策树的每个内部节

6、点(非叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,每个叶节点代表类或类分布,树的顶层节点是根节点。决策树算法通过将样本的属性值与决策树相比较,来对未知样本进行分类。首先根据训练数据集来构建决策树,建立决策树模型,这实际上是一个从数据中获取知识,进行机器学习的过程[2]。树代表训练样本的单个根节点开始,使用分类属性(如果是量化属性,则需要进行离散化),递归地通过选择相应的测试属性来划分样本,一旦一个属性出现在一个节点上,就不在该节点的任何后代上出现,测试属性是根据某种启发信息或者是统计信

7、息来进行选择(如信息增益)。第二个阶段是树剪枝,树剪枝试图检测和剪去训练数据中的噪声和孤立点,尽量消除模型中的异常。剪枝后的树变小、复杂度降低,在正确地对独立检验数据分类时效果更快更好。ID3算法是最早的决策树分类算法,但只是对规模较小训练样本集有效。针对ID3算法构造决策树复杂、分类效率不高的问题,文献[3]采用加权分类粗糙度作为节点选择属性的启发函数,提出基于粗糙集理论的决策树构造算法,无论在规模或是分类效率上均优于ID3算法。Olaru.R提出了一种基于模糊方法的软决策树算法,极大地提高了树的

8、正确率和归纳能力。王熙照教授等研究者为处理多类问题,采用基于层次分解的方法产生多层决策树;针对C4.5算法的不足,提出新的决策树算法解决归纳学习的判决精度问题[4]。还有一种多决策树综合技术,先将数据集分成多个子数据集,然后将生成的多个不同的决策树综合起来,生成最终的、最稳定的决策树。2.2贝叶斯分类算法贝叶斯(Beyes)分类算法基于概率统计学的贝叶斯定理,是一种在先验概率与类条件概率已知的情况下,预测类成员关系可能性的模式分类算法,如计算一个给定样本属于一个特定类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。