数据挖掘中聚类算法的分析与实践

数据挖掘中聚类算法的分析与实践

ID:5322630

大小:137.09 KB

页数:3页

时间:2017-12-08

数据挖掘中聚类算法的分析与实践_第1页
数据挖掘中聚类算法的分析与实践_第2页
数据挖掘中聚类算法的分析与实践_第3页
资源描述:

《数据挖掘中聚类算法的分析与实践》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、学术探讨算法研究数据挖掘中聚类算法的分析与实践史超(浪潮世科[山东]信息技术有限公司北京分公司,北京100085)[摘要]聚类分析是数据挖掘的一个重要的研究方向。本文在介绍了数据挖掘的基本概念之后,详细分析了常用的聚类算法。最后,使用weka数据挖掘软件对K-means算法进行了实践,实验结果证明了K-means算法的有效性。[关键词]K-均值;聚类;有效性一种称为验证型(Verification-Driven)的数据挖掘;1.数据挖掘(2)选择合适的工具;1.1数据挖掘概念(3)挖掘知识的操作;数据

2、挖掘,英文是DataMining。目前对数据挖掘技术一(4)证实发现的知识。种比较公认的定义是W.J.FrawleyG.Piatetsky-Shapiro等人结果表述和解释阶段:根据最终用户的决策目的对提取提出的;数据挖掘,就是从大型数据库的数据中提取人们感的信息进行分析,把最有价值的信息区分出来,并且通过决兴趣的知识。这些知识是隐含的、事先未知的潜在有用信策支持工具提交给决策者。因此,这一步骤的任务不仅是把息,提取的知识表示为概念(Concepts)、规则(Rules)、规律结果表达出来(例如采用信

3、息可视化方法),还要对信息进行(Regularities)等形式。这种定义把数据挖掘的对象定义为数过滤处理。如果不能令决策者满意,需要重复以上数据挖掘据库。而更广义的说法是,数据挖掘意味着在一些事实或观的过程。察数据的集合中寻找模式的决策支持过程。目前发展的热2.聚类算法分析点是数据挖掘技术和数据仓库技术的结合。数据仓库中包2.1划分聚类算法含了大量历史数据,这些数据是经过了规范化并且面向主划分聚类也叫分割聚类。给定一个n个对象或元组的数题组织的,在数据仓库中进行数据挖掘是最容易的。据库,一个分割方法

4、构建数据的k个划分,每个划分表示一与数据挖掘关系密切的研究领域包括归纳学习个聚类,并且K

5、,而机器学习关心的是提高系统的性能,因此训一个初始划分开始,通过优化一个评价函数把数据划分成若练神经网络来控制一根倒立棒是一种机器学习过程,但不干子类。因此事实上已经把聚类问题转化成了优化问题,划是数据挖掘;数据挖掘的主要对象是大型的数据集合,如数分聚类方法输出的是多个互不相交的聚类集。据仓库,但一般来说机器学习处理的数据集要小得多,因此代表算法有:K均值算法、Clara算法、Clarans算法。效率问题对数据挖掘是至关重要的。1.2数据挖掘过程2.2层次聚类算法数据挖掘过程一般由3个主要的阶段组成:

6、数据准备、层次聚类算法就是把数据库分成多个层次,然后对不同挖掘操作、结果表达和解释。层次的数据采用划分聚类,输出的是一棵层次化的分类树,数据准备阶段:这个阶段又可进一步分成3个子步骤,层次的方法可以分为凝聚的和分裂的。凝聚的方法,也称为数据集成、数据选择、数据预处理。数据集成将多文件或多自底向上的方法,一开始将每个对象作为单独的一个组,然数据库运行环境中的数据进行合并处理,解决语义模糊性、后相继地合并相近的对象或组,直到所有的组合并为一个处理数据中的遗漏和清洗脏数据等,数据选择的目的是辨(层次的最上层

7、),或者达到一个终止条件。分裂的方法,也别出需要分析的数据集合,缩小处理范围,提高数据挖掘的称为自顶向下的方法,一开始将所有的对象置于一个类中。质量。预处理是为了克服目前数据挖掘工具的局限性。在迭代的每一步中,一个类被分裂为更小的类,直到最终每数据挖掘阶段:这个阶段进行实际的挖掘操作。包括的个对象在单独的一个类中,或者达到一个终止条件。要点有:代表算法有:BIRCH、CURE、ROCK等聚类算法。(1)要先决定如何产生假设,是让数据挖掘系统为用户2.3基于密度的聚类算法产生假设,还是用户自己对数据库中

8、可能包含的知识提出基于密度的方法与其它方法的一个根本区别是,它不是假设。前一种称为发现型(Discovery-Driven)的数据挖掘;后基于各种各样距离的,而是基于密度的。这样就能克服基于————————————————作者简介:史超,男,山西太原人,工程硕士,研究方向:数据挖掘,SharePoint,内容管理系统,Silverlight。—42—学术探讨算法研究距离的算法只能发现“类圆形”的聚类的缺点,可以发现任进行名词化处理,这里Weka将自动实施

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。