欢迎来到天天文库
浏览记录
ID:27891950
大小:152.00 KB
页数:10页
时间:2018-12-06
《数据挖掘常用的十大算法.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据挖掘常用的十大算法数据挖掘简介 数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 数据挖掘经典算法1.C4.5:是机器学习算法中的一种分类决策树算法,其
2、核心算法是ID3算法。 解析 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。 2)在树构造过程中进行剪枝; 3)可以完毕对连续属性的离散化处理; 4)可以对不完整数据进行处理。 C4.5算法有例如以下长处:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,须要对数据集进行多次的顺序扫描
3、和排序,因而导致算法的低效。 1、机器学习中。决策树是一个预測模型。他代表的是对象属性与对象值之间的一种映射关系。树中每一个节点表示某个对象,而每一个分叉路径则代表的某个可能的属性值,而每一个叶结点则 相应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出。若欲有复数输出,能够建立独立的决策树以处理不同输出。 2、从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。 3、决策树学习也是数据挖掘中一个普通的方法。在这里,每一个决策树都表述了一种树型结构,他由他的
4、分支来对该类型的对象依靠属性进行分类。每一个决策树能够依靠对源数据库的切割 进行数据測试。 这个过程能够递归式的对树进行修剪。 当不能再进行切割或一个单独的类能够被应用于某一分支时。递归过程就完毕了。 另外。随机森林分类器将很多决策树结合起来 以提升分类的正确率。2.K-means算法:是一种聚类算法。 术语“k-means”最早是由JamesMacQueen在1967年提出的。这一观点能够追溯到1957年HugoSteinhaus所提出的想法。1957年。斯图亚特·劳埃德最先提出这
5、一标准算法,当初是作为一门应用于脉码调制的技术,直到1982年,这一算法才在贝尔实验室被正式提出。1965年。E.W.Forgy发表了一个本质上是同样的方法。1975年和1979年。HarTIgan和Wong分别提出了一个更高效的版本号。 算法描写叙述 输入:簇的数目k;包括n个对象的数据集D。 输出:k个簇的集合。 方法: 从D中随意选择k个对象作为初始簇中心; repeat; 依据簇中对象的均值。将每一个对象指派到最相似的簇; 更新簇均值。即计算每一个簇中对象的均值; 计算
6、准则函数; unTIl准则函数不再发生变化。 3.SVM:一种监督式学习的方法 广泛运用于统计分类以及回归分析中支持向量机,英文为SupportVectorMachine,简称SV机(论文中一般简称SVM)。它是一 种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。 支持向量机属于一般化线性分类器。他们也可以觉得是提克洛夫规范化(TIkhonovRegularizaTIon)方法的一个特例。这族分类器的特点是他们可以同一时候最小化经验误差与最大化 几何边缘区。因此支持向量
7、机也被称为最大边缘区分类器。在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找參数最大似然预计的算法。当中概率模型依赖于无 法观測的隐藏变量(LatentVariabl)。 最大期望经经常使用在机器学习和计算机视觉的数据集聚(DataClustering)领域。 最大期望算法经过两个步骤交替进行计算: 第一步是计算期望(E),也就是将隐藏变量象可以观測到的一样包括在内从而计算最大似然的期望值; 另外一步是最大化(M),也就是最大化在E步上找到的最大似然的
8、期望值从而计算參数的最大似然预计。 M步上找到的參数然后用于另外一个E步计算,这个过程不断交替进行。 Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了还有一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况。 甚至扩展到使用非线性函数中去,这 种分类器被称为支持向量机(SupportVectorMachine,简称SVM)。支持向量机的提出有非常深的理论背景。支持向量机方法是在近年来提出的一种新方法。 SVM的主要思想能够概括为两点: (1)它是针对线性
此文档下载收益归作者所有