数据挖掘算法综述

数据挖掘算法综述

ID:35504932

大小:58.25 KB

页数:5页

时间:2019-03-25

数据挖掘算法综述_第1页
数据挖掘算法综述_第2页
数据挖掘算法综述_第3页
数据挖掘算法综述_第4页
数据挖掘算法综述_第5页
资源描述:

《数据挖掘算法综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘方法综述[摘要]数据挖掘(DM,DataMining)乂被称为数据库知识发现(KDD,KnowledgeDiscoveryinDatabases),它的主耍挖掘方法有分类、聚类、关联规则挖掘和序列模式挖掘等。[关键词]数据挖掘分类聚类关联规则序列模式1、数据挖掘的基本概念数据挖掘从技术上说是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。这个定义包括好儿层含义:数据源必须是真实的、大量的、含噪声的、发现的是用户感兴趣的知识,

2、发现的知识要可接受、可理解、可运用,并不要求发现放之四海皆准的知识,仅支持特定的发现问题,数据挖掘技术能从中自动分析数据进行归纳性推理从中发掘出潜在的数据模式或进行预测,建立新的业务模型帮助决策者调整策略做出止确的决策。数据挖掘是是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。数据挖掘的主要方法有分类、聚类和关联规则挖掘等2、分类分类(Classification)乂称监督学习(SupervisedLearning)o监督学习的定义是:给出一个

3、数据集D,监督学习的目标是产生一个联系属性值集合A和类标(一个类属性值称为一个类标)集合C的分类/预测函数,这个函数可以用于预测新的属性集合(数据实例)的类标。这个函数就被称为分类模型(ClassificationModel),或者是分类器(Classifier)。分类的主要算法有:决策树算法、规则推理、朴素贝叶斯分类、支持向量机等算法。决策树算法的核心是Divide-and-Conquer的策略,即采用自顶向下的递归方式构造决策树。在每一步中,决策树评估所有的属性然后选择一个属性把数据分为m个不相交的子

4、集,其中m是被选中的属性的不同值的数冃。一棵决策树可以被转化成一个规则集,规则集用来分类。规则推理算法则直接产生规则集合,规则推理算法的核心是Separate-and-Conquer的策略,它评估所有的属性■值对(条件),然后选择一个。因此,在一步中,Divide-and-Conquer策略产生m条规贝U,而Separate-and-Conquer策略只产生1条规则,效率比决策树要高得多,但就基本的思想而言,两者是和同的。朴素贝叶斯分类的基本思想是:分类的任务可以被看作是给定一个测试样例d后估计它的后验概

5、率,即Pr(C二5

6、d),然后我们考察哪个类6对应概率最大,便将那个类别赋予样例d。构造朴素贝叶斯分类器所需要的概率值可以经过一次扫描数据得到,所以算法相对训练样本的数量是线性的,效率很高,就分类的准确性而言,尽管算法做出了很强的条件独立假设,但经过实际检验证明,分类的效果还是非常好的。支持向量机(SVM)是另一类的线性学习系统,用最大边距决策边界来分割正例和负例,学习问题用一个二次优化问题來描述。非线性的决策边界可以用原始数据向更高维的特征空间变换得到。支持向量机不仅有扎实的理论基础,而且在许多应用领域

7、比其他算法更准确,尤其是在处理高维数据时。到目前为止它是解决文本分类问题的最准确的算法,也被广泛用于网页分类和生物信息领域。3、聚类聚类(Clustering)又称为监督学习(SupervisedLearning),它可以发现数据属性和类别属性之间的关联模式,并通过利用这些模式来预测未知数据实例的类别属性。聚类分析的主要思想是使得同类屮的对象距离尽可能小,而类与类之间的距离尽可能大。聚类分析关注于根据一些不同种类的度量构造一些相似的对象组成的群体。关键的思想是确定对分析目标有利的对象分类方法。聚类是一个将

8、数据集划分为若干组或若干类的过程,并使得同一个组内的对象具有较高的相似度,而不同组之间的数据对象相似却很小。相似或不相似的度量是基于数据对象描述的取值来确定的。通常就是利用各对象间的距离来进行描述。将一群物理的或抽象的对象,根据它们之间的相似程度,分为若干组,其中相似的对象构成一组,这一过程就称为聚类过程,一个聚类,又称簇,就是由彼此相似的一组对象所构成的集合,不同聚类中的对象通常是不相似的。聚类分析是按照不同对象Z间差异•,根据每个样本对象的各种特征,通过无监督训练将样本按类似性分类,把相似性大样本归为

9、一类,并占据特征空间的一个局部区域,每个局部区域的聚合中心乂起着相应类型代表的作用。聚类分析是一种典型的组合优化问题。通常用于将某些具有一定特征的各个个体进行分类。聚类算法主要有两种类型:划分聚类和层次聚类。K■均值聚类算法是著名的划分聚类算法(K・mcansClustering)□它的主要思想是给定一个数据点集合和需要的聚类数目K(K是由用户指定的),K■均值算法根据某个距离函数反复地把数据分入K个聚类中。在算法的开始,先随

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。