基于网格的聚类方法研究

基于网格的聚类方法研究

ID:20680551

大小:67.67 KB

页数:12页

时间:2018-10-14

基于网格的聚类方法研究_第1页
基于网格的聚类方法研究_第2页
基于网格的聚类方法研究_第3页
基于网格的聚类方法研究_第4页
基于网格的聚类方法研究_第5页
资源描述:

《基于网格的聚类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于网格的聚类方法研究摘要:已有的聚类算法对于发现任意形状的聚类和处理离群点效果不理想,分析了现有基于网格的聚类算法。使用网格方法的数据分析方法将空间划分为由(超)矩形网格单元组成的网格,然后在网格单元上进行聚类。最后,总结全文并提出基于网格的聚类需要进一步研究的方向。关键词:数据挖掘;网格;聚类1引言数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的及有应用价值的信息或模式。它是数据库研究中的一个很有应用价值的领域,融合了数据库、机器学习、统计学等多个领域的理论和技术[1]。聚类分析是数据挖掘中广为研宄的课

2、题之一,是从数据中寻找数据间的相似性,并依此对数据进行分类,从而发现数据中隐含的有用信息或知识。目前己经提出了不少数据聚类算法,其中比较著名的有CLARANS[2]、BIRCH[3DBSCAN[4]和CLIQUE[5]等。但对于高维、大规模数据库的高效聚类分析仍然是一个有待研宄的开放问题。网格方法是空间数据处理中常用的将空间数据离散化的方法。基于网格的聚类算法由于易于增量实现和进行高维数据处理而被广泛应用于聚类算法中。研宄人员已经提出了很多基于网格的聚类算法,包括STING[6],它利用了存储在网格单元中的统计信

3、息;WaveCluster[7]它用一种小波转换方法来聚类数据对象;CLIQUE在高维数据空间中基于网格和密度的聚类方法等。本文对己有的基于网格的聚类算法进行了研究,从网格的表示,划分网格单元的方法,到统计网格内信息,搜索近邻网格单元,聚类超过指定阙值的网格单元的各个步骤进行了分析,最后对基于网格方法聚类的研究方向做了展望。2网格的定义与划分网格的基本概念,设Al,A2,…,Ar是数据集0={01,02,…,On}中数据对象的r个属性的有界定义域,那W=A1XA2X-XAr就是一个r维空间,将Al,A2,…,Ar

4、看成是W的维(属性、字段),则对于一个包含n个数据点的r维空间中的数据集0={01,02,…,On},其中0i={0il,0i2,…,Oir}(i=l,2,…,n),0i的第j个分量OijGAj。将W的每一维M等分,即把W分割成个网格单元。基于网格聚类算法的第一步是划分网格结构,按搜索子空间的策略不同,主要有基于由底向上网格划分方法的算法和基于自顶向下网格划分方法的算法。由底向上的划分方法由底向上的网格划分方法按照用户输入的划分参数(即每维段数ki,l

5、一网格单元内的所有数据点都属于同一个簇,每个网格单元保存落入其内数据的统计信息,比如数据点个:据点之和。包含一定数目数据点的网格单元被称为高密度网格单元。WaveCluster与CLIQUE是采用由底向上网格划分方法的代表性算法。WaveCluster处理低维空间数据,它的性能超越了BIRCH、CLARANS,与DBSCAN等优秀的聚类算法[15]CLIQUE考虑了高维子空间聚类,但它的时间复杂度较高,需要用户指定全局密度阈值。算法MAF1A[8]对CLIQUE进行了改进,为了减少聚类算法需要处理的网格单元数目,

6、MAFIA将均匀划分网格中每一维上数据分布密度相似的相邻段合并,由此得到一个不均匀划分的网格。这个网格在数据分布较均匀的区域划分粒度大,在数据分布不均匀的区域划分粒度小,这种不均匀划分网格的方法能够提高聚类的质量,被后续的许多算法所采用。采用由底向上的网格划分方法的优点在于,它能通过对数据的一遍扫描,将数据压缩到一个网格数据结构内,并基于这个网格数据结构,发现任意形状的簇。此外,如果网格单元的粒度较小(即体积较小),那么得到的聚簇的精度较高但是算法的计算复杂度较大。此外,由底向上的网格方法存在不适合处理高维数据的

7、问题。在高维空间,数据的分布是非常稀疏的,网格方法失去其压缩作用,而且属于同一个簇的高密度网格单元也可能不相连,这使聚类算法不能发现合理数目的簇。自顶向下的划分方法自顶向下的网格划分方法采取分治的策略(divideandconquerprincipie),对数据空间进行递归划分,使问题的规模不断减小。首先将原数据空间划分为几个较大的区域。对于每个得到的区域,划分过程反复执行,直到每个区域包含属于同一个簇的数据点,那么这些区域就是最终的网格单元。基于自顶向下网格方法的聚类算法直接将高密度网格单元识别为一个簇,或是将

8、相连的高密度网格单元识别为簇。OptiGrid[9]与CLTree[10]是两个典型的基于自顶向下网格划分方法的聚类算法。其中,OptiGrid则是用空间数据分布的密度信息来选择最优划分。通过一个密度函数来决定切割平面,可以将数据空间划分为规则的或不规则单元:与传统的等间距的划分相比,可以用此来解决高维聚类的问题。而CLTree用划分后的信息增益来选取最优划分。自顶向下划

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。