数据流聚类算法研究

数据流聚类算法研究

ID:44258685

大小:45.05 KB

页数:9页

时间:2019-10-20

数据流聚类算法研究_第1页
数据流聚类算法研究_第2页
数据流聚类算法研究_第3页
数据流聚类算法研究_第4页
数据流聚类算法研究_第5页
资源描述:

《数据流聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据流聚类算法研究摘要:近几年来,流数据成为主流的数据形式之一。如网络入侵监测数据,股票数据等都是不断变化的流数据。聚类作为数据挖掘领域的主要技术手段2—,因此流数据的聚类也受到了众多学者的广泛关注。而流数据不同于静态数据的特性给流数据的聚类带來了挑战。本文总结了传统数据的聚类算法和流数据聚类挖掘的研究方法,并提出了对未来将群智能应用于流数据聚类算法的展望。关键词:流数据;聚类;数据挖掘;群智能中图分类号:TP311文献标识码:A文章编号:2095-2163(2014)01-0013-040引言随着无线传感网络以及有关领域的相应发展,流数据日益成为主要的

2、数据形式Z-o例如无线传感器中的监测数据,网络入侵监测数据,以及金融产业中不断变化的股票数据等,即属于此类。这些数据都具有与传统静态数据不同的特性,诸如实时、有序、快速变化等。而对于冃前较为有限的存储空间,数据流却又无法长期保存在计算机中,因此如何在线实时有效地处理这些数据,从中挖掘提取有用的知识,即成为数据挖掘领域的热点问题Z-o数据挖掘,亦称作知识发现,是指从大量的数据中挖掘得到人们感兴趣的知识的具体发现过程。现如今,人们可以通过多种渠道获取信息数据,随着数据量的大幅增长,如何从这些数据中找到有价值的信息,就成为数据挖掘的首要任务。数据挖掘的分析方法

3、主要有以下几种:(1)关联分析。两个或多个数据变量之间存在着某种相关性,这就是关联。通常情况下,数据库中庞人数据的关联性很难发现,而且关联分析又具有一定的不确定性,因此产生的规则必须带有可信度。(2)分类分析。分类是数据挖掘领域的一个重要技术手段。一般分为训练学习过程和测试过程。例如,决策树、神经网络、k近邻算法、贝叶斯算法等都是常见的分类技术。(3)聚类分析。作为数据挖掘、模式识别等工程和技术领域的研究热点2—,聚类分析表现了高度优良的性能和效果。聚类就是将一个整体的数据集划分成若干个簇,使得不同簇之间的相似性尽可能地小,而同一个簇中的相似性又尽可能地

4、大。综上所述,可知聚类技术是数据挖掘领域的重要技术方法之一,而数据流高速动态变化和一次扫描等特性却给数据流聚类带来了巨人的挑战。如何能够仅利用一次扫描就达到最好的聚类效果,以及如何生成任意形状的聚类,则是近些年來研究者们深度探讨的重点课题之一。1传统的数据聚类算法传统静态的数据聚类算法对于后期数据流聚类算法的进•步研究具有相当重要的现实意义,很多数据流聚类算法都是一些常见的经典聚类算法的变形。聚类算法一般可以分为三类,分别是基于划分的方法、基于层次的方法、基于密度的方法。在此,对这三类方法进行分别的探讨和解析,具体如下。1.1传统的聚类方法(1)基于划分

5、的方法(2)基于层次的聚类方法基于层次的方法通常分为自顶向下和自底向上两种情况。在这些方法中,比较常用的就是Birch算法[1]。Birch算法中引入了CF聚类特征和CFtree聚类特征树这两个概念。具体过程为:首先全面扫描数据库,建立一个初始的聚类特征树;从根节点向下,计算与要插入的数据点间的距离,找寻最短距离,直至找到与该数据点最近的叶节点;如果吸收后大于阈值T,删除或分裂叶节点。Birch算法适用于大数据集的聚类处理,具有较低的算法空间复杂度和时间复杂度,聚类效果良好。但是,birch算法多是利用半径來计算聚类的范围,因此对于非球状的聚类,就不会达

6、到理想的效果。(3)基于密度的聚类方法基于密度的聚类方法是将具有相似的密度点的数据聚合在一起,可以根据不同的密度变化将聚类拓展到任意的地方,这就弥补了基于距离聚类只能产生球状实现效果的缺陷。但是这类算法的复杂度一般却比较高。1・2基于群智能的聚类方法群智能就是昆虫或者飞鸟等群体表现出来的群体智能,例如蚂蚁觅食,筑巢等过程中所表现出来的智能。近年来,众多学者将群智能应用于数据聚类中,取得了良好的聚类效果。群智能优化算法主要有蚁群优化算法(ACO)、粒子群优化算法(PSO)、人工鱼群优化算法等。2003年,Merwe等人[2]最先提出了PS0与K-means

7、算法结合的混合聚类算法。该算法利用K-means方法得到某组聚类的中心,并在粒子群初始化时将聚类中心赋值给某个粒子,其余粒子则随机初始化,之后运用基本PSO聚类算法完成聚类。Azzag等人提出了一种基于蚂蚁觅食原理的聚类算法[3]。算法中,数据点可看作是具有不同属性的蚂蚁,而聚类中心就是蚂蚁所要寻找的“食物”,由此数据聚类过程即成为蚂蚁寻找食物源的过程。此外,文献[4]继续提出通过蚂蚁自聚行为、达到聚类的蚁群聚类算法。该算法中,蚂蚁能够通过自我聚集行为构建一个树状结构,即蚂蚁树(AntTree)o蚂蚁不仅代表数据,而且也代表该蚂蚁树的节点,初始状态时将蚂

8、蚁置于一个固定点上,该点相当于树根。接着蚂蚁在树上已经固定的蚂蚁身上移动,寻找适

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。