欢迎来到天天文库
浏览记录
ID:22675313
大小:57.50 KB
页数:8页
时间:2018-10-30
《小议浅分类方法的发展》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、小议浅分类方法的发展 论文:分类;数据挖掘 论文:分类是数据挖掘的重要任务之一,分类在实际应用中有广泛的应用,如医疗事业、信用等级等。近年来,分类方法得到了发展,本文对这些方法进行了回纳分析,总结了今后分类方法发展的方向。 1引言 分类[1(Classification)是学会一个分类函数或分类模型(也经常称作分类器),该模型能把数据库中的数据项映射到给定种别中的某一个。分类可用于提取描述重要数据类的模型或猜测未来的数据趋向。分类可描述如下:输进数据,或称练习集是一条条记录组成的。每一条记录包含若干条属性,组成一个特征向量。练习集的每条记录还有一个特定的类标签
2、和之对应。该类标签是系统的输进,通常是以往的一些经验数据。一个具体样本的形式可为样本向量:(v1,v2,…,vn:c)。在这里vi表示字段值,c表示种别。 分类作为数据挖掘的一个重要分支[2,在贸易、医学、军事、体育等领域都有广泛的应用,在过往的十多年中引起很多来自不同领域学者的关注和探究。除了基本的统计分析方法外,数据挖掘技术主要有:神经X络(NeuralNet)、k近邻分类算法(kNearestNeighbour)和支持向量机(SupportVectorMachine)等。 不同的分类器有不同的特征,目前有三种分类器评价或比较标准[1:1)猜测正确度。猜测正确
3、度是用得最多的一种比较标准,非凡是对于猜测型分类任务,目前公认的方法是10折分层交叉验证法;2)计算复杂度。计算复杂度依靠于具体的实现细节和硬件环境,空间和时间的复杂度新题目将是非常重要的一个环节;3)模型描述的简洁度。模型描述越简洁越受欢迎,如采用规则表示的分类器结果就较轻易理解,而神经X络方法产生的结果就难以理解。不同的算法有不同的特征,充分熟悉各算法的优点和存在的缺陷,把握其适应的环境,方便探究者明确算法的改进和探究,本文主要对算法的探究目前状况进行分析和比较。 2分类方法的发展 2.1决策树的分类方法 ID3算法是较早的决策树回纳算法。当前最有影响的
4、决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。ID3选择信息增益值最大的属性划分练习样本,其目的是进行***时系统的熵最小,从而进步算法的运算速度和精确度。这种方法的优点是描述简单、分类速度快和产生的分类规则易于理解;但缺点是抗噪性差、练习正例和反例较难控制以及是非递增学习算法。C4.5是ID3的改进算法,不仅可以处理离散值属性,还能处理连续值属性,但是也不能进行增量学习。 SLIQ是一个能够处理连续及离散属性的决策树分类器。该算法针对C4.5分类算法产生的样本反复扫描和排序低效新题目,采用了预排序和宽度优先两项技术。预排序技术消除了
5、结点数据集排序,宽度优先为决策树中每个叶结点找到了最优***标准。这些技术结合使SLIQ能够处理大规模的数据集,并能对具有大量的类、属性和样本的数据集分类;并且该算法代价不高且天生紧凑精确的树。缺点是内存驻留数据会随着输进纪录数线性正比增大,限制了分类练习的数据量。 SPRINT方法完全不受内存的限制,并且处理速度很快,且可扩展。为了减少驻留于内存的数据量,该算法进一步改进了决策树算法的数据结构,往掉了SLIQ中需要驻留于内存的种别列表,将种别合并到每个属性列表中。但是对非***属性的属性列表进行***却比较困难,因此该算法的可扩展性较差。 2.2贝叶斯分类方法
6、 贝叶斯分类是统计学分类方法,是利用Bayes定理来猜测一个未知种别的样本可能属性,选择其可能性最大的种别作为样本的种别。朴素贝叶斯X络作为一种快速而高效的算法而受到人们的关注,但是其属性独立性并不符合现实世界,这样的假设降低了朴素贝叶斯X络的性能;但是假如考虑所有属性之间的依靠关系,使其表示依靠关系的能力增强,答应属性之间可以形成任意的有向图,由于其结构的任意性,这样使得贝叶斯X络的结构难以学习,然而,贝叶斯X络的学习是一个NP-plete新题目。 目前对于贝叶斯X络的改进主要包括了[3:1)基于属性选择的方法,保证选择的属性之间具有最大的属性独立性,其中代表算法
7、是由Langley[4提出SBC(SelectiveNaviebayes);2)扩展朴素贝叶斯X络的结构,考虑属性之间的依靠关系,降低属性独立性假设,其中代表算法是由Friedman[5提出树扩展的贝叶斯X络TAN(TreeAugmentedNa?vebayes);3)基于实例的学习算法[6。 其中1)、2)的算法是根据练习集合构造一个分类器,是一种积极的学习算法,3)的方法是一种消极的学习算法。 2.3粗糙集分类方法 粗糙集[7理论是一种刻划不完整和不确定性数据的数学工具,不需要先验知识,能有效处理各种不完备信息,从中发现隐含的知识,并和各种
此文档下载收益归作者所有