数据挖掘中聚类的理论研究

数据挖掘中聚类的理论研究

ID:2221051

大小:331.00 KB

页数:12页

时间:2017-11-15

数据挖掘中聚类的理论研究_第1页
数据挖掘中聚类的理论研究_第2页
数据挖掘中聚类的理论研究_第3页
数据挖掘中聚类的理论研究_第4页
数据挖掘中聚类的理论研究_第5页
资源描述:

《数据挖掘中聚类的理论研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘中聚类分析的理论研究摘要:近年来,数据挖掘技术是非常热门的研究方向,聚类分析作为数据挖掘的核心技术,也是非常热门的研究课题。本文主要对数据挖掘中的聚类分析进行理论上的研究,介绍聚类分析的常用方法,着重研究K-means的原理和EM聚类的实例。关键词:数据挖掘,聚类分析,理论研究,K-means,EM一、背景随着计算机技术的不断发展、网络的迅速普及,人们与外界进行信息交流的渠道和机会越来越多。在这个过程中,人们获得的数据资源很丰富,正是由于大量数据的涌入,就存在一些无用的数据,这增加了信息使用者使用有用数据的难度。如何从巨量的数据中获得有用的、有价值的信息,

2、采用传统的数据库技术有时显得无能为力,如何从信息的海洋中提取出人们感兴趣的知识,以帮助人们完成特定的任务成为了一个迫切需要解决的问题。基于这样一种需求,用来帮助用户从这些海量数据中分析出其间所蕴涵的有价值的模式和知识的技术——数据挖掘就应运而生了。二、选题介绍本文所要研究的就是关于数据挖掘中聚类分析的理论,着重介绍聚类分析的方法,分析聚类的理论价值。数据挖掘是一门内容丰富的学问,它涉及很多数据挖掘的方法。利用数据挖掘技术以及SQLServer2005软件平台,能够研究很多实际问题,如模式识别、空间数据分析、GIS地图、图像处理、市场研究、WEB文档归类、市场营销客

3、户群归类、城市规划、地震研究等。数据挖掘汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。多学科的相互交融和相互促进,使得数据挖掘这一新学科得以蓬勃发展。被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。数据挖掘的根本在于统计学,统计方法中多元数据分析的三大方法之一的聚类分析则是数据挖掘采用的核心技术,成为该研究领域中一个非常活跃的研究课题。所谓数据挖掘,又叫数据库中的知识发现,简称KDD,就是从大量的、不完全的、有噪声的、模糊的、随机的、无序的数据中提取隐含在其中的有效的、有价值的、可理解的模式,进而

4、发现有用的或是潜在有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。数据挖掘所处理的数据至少具有如下特点:(1)数据源是丰富多彩的.数据量巨大,有结构化的数据,但更多的是半结构化的数据;(2)有用数据是隐藏的.有用数据不是直观明了地表现出来,而是隐藏在巨量的数据之中;(3)有用数据能被人们所理解,以人们熟知的模式反映数据的本质特征。聚类分析是数据挖掘中一种很重要的技术。聚类分析基于“物以类聚”的朴素思想,根据事物的特征对其进行聚类或分类。所谓聚类,就是把拥有大量数据的集合分成若干簇,在同一个簇中的数据对象之间最大程度的相似,而在不同簇中的数

5、据对象之间具有最大程度的不同。在实际应用中,一个聚类结果会影响到数据挖掘的后续工作,通常一个好的聚类结果会使数据分析工作变得简单清晰,比较容易得到用户想要的知识,而一个糟糕的聚类结果却正好相反,甚至得不到用户想要的结果。因此聚类分析成了数据挖掘中的最为关键的部分,发展成为一个很活跃的研究方向。三、原理介绍聚类分析算法种类繁多,具体的算法选择取决于数据类型,聚类的应用和目的。根据其基本思想,可以分为:划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法。实际应用中的聚类算法,往往是上述聚类方法中多种方法的整合。(1)划分方法划分方法的基本思想是:给定具

6、有N个对象或元组的数据库,指明想要得到的簇的数目k,一个划分方法利用采取的算法将这N个对象划分成k个分组,其中k

7、类和分解聚类两种。其主要思想如下:聚合聚类方法:将数据集中的每一个对象看作是一个单独的簇,然后根据某个给定的原则将这些簇进行合并,直到数据集中的对象形成一个簇或者是满足事先定义的某个终止条件。分解聚类方法:与聚合聚类方法恰好相反,将所有的数据集看成是一个大的聚类,根据某个给定的规则对这个簇进行划分,细化成越来越小的簇,直到每个数据对象自成一个簇或者达到某个终止条件。几种典型的层次方法有BIRCH,CURE等。(3)基于密度的方法对于非球形的簇,用对象之间的距离来度量相似性是不够的,因此为了发现任意形状的簇,利用密度(数据或对象点的数目)来代替距离,提出了基于密度的

8、聚类方法。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。