数据挖掘分类算法研究综述终板

数据挖掘分类算法研究综述终板

ID:43094218

大小:44.01 KB

页数:3页

时间:2019-09-26

数据挖掘分类算法研究综述终板_第1页
数据挖掘分类算法研究综述终板_第2页
数据挖掘分类算法研究综述终板_第3页
资源描述:

《数据挖掘分类算法研究综述终板》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘分类算法研究综述程建华(九江学院信息科学学院软件教研室九江332005)摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。关键词:数据挖掘;分类;软计算;算法1引言1989年8月,在第11届国际人工智能联合会议的

2、专题研讨会上,首次提出基于数据库的知识发现(KDD,KnowledgeDiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,DataMining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种

3、基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。2传统的数据挖掘分类方法分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。2.1判定树的归纳分类判定树是一个类似流程图的树结

4、构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。2.2贝叶斯分类贝叶斯分类是统计学的分类方法,基于贝叶斯

5、公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,⋯Xn}表示,其中Xk是属性Ak的值。所有的样本分为m类:C1,C2,⋯,Cn。对于一个类别的标记未知的数据记录而言,若P(Ci/X)>P(Cj/X),1≤j≤m,j≠i,也就是说,如果条件X下,数据记录属于Ci类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为Ci类。建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的———————————————————作者简介:程建华(1982-),女,汉族,

6、江西九江,研究生,主要研究方向为数据挖掘、信息安全。学习,利用贝叶斯网络的学习算法,从实例数据建立所有属性变量和类变量构成的贝叶斯网结构。第二个阶段网络中每个变量的局部条件概率分布的学习,采用贝叶斯网的推理算法,计算给定属性变量的值时类变量的最大后验概率。采用这种分类思想的算法有TAN(treeaugmentedBayesnetwork)算法。但是统计上的贝叶斯分类对非线性样本数据,含噪声、孤立点的数据,在分类准确性上仍存在问题。3基于软计算的数据分类方法在数据挖掘领域,软计算的用途越来越广泛:模糊逻辑用于处理不完整、不精确的数据以

7、及近似答案等;神经网络用于高非线形决策、泛化学习、自适应、自组织和模式识别;遗传算法用于动态环境下的高效搜索、复杂目标对象的自适应和优化;粗糙集根据“核”属性获得对象的近似描述,能有效处理不精确、不一致、不完整等各种不完备信息。当数据集表现出越来越多的无标签性、不确定性、不完整性、非均匀性和动态性特点时,传统数据挖掘算法对此往往无能为力,软计算却可为此提供一种灵活处理数据的能力,软计算内的融合和与传统数据挖掘方法的结合逐渐成为数据挖掘领域的研究趋势。3.1 粗糙集(roughset)粗糙集理论是一种刻划不完整和不确定性数据的数学工具

8、[3],不需要先验知识,能有效地处理各种不完备信息,从中发现隐含的知识,并和各种分类技术相结合建立起能够对不完备数据进行分类的算法。粗糙集理论将分类能力和知识联系在一起,使用等价关系来形式化地表示分类,知识因而表示为等价关系集R对离散

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。