数据流聚类算法

数据流聚类算法

ID:46726206

大小:750.67 KB

页数:12页

时间:2019-11-27

数据流聚类算法_第1页
数据流聚类算法_第2页
数据流聚类算法_第3页
数据流聚类算法_第4页
数据流聚类算法_第5页
资源描述:

《数据流聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据流挖掘中的聚类方法综述∗徐天音(南京大学计算机科学与技术系,南京210093)ASurveyofClusteringMethodsinMiningDataStreaming*TianyinXu(DepartmentofComputerScienceandTechnology,NanjingUniversity,Nanjing210093,China)Abstract:Theresearchtodatastreamingmodelhasrecentlygainedahighattractionduetoitsapplications,includingreal-t

2、imesurveillancesystems,networkintrusiondetectionandclickstreams.Clustering,oneofthemostimportantproblemsinstreamingmining,hasrecentlybeenhighlyexploredbecauseitsapplicationtodatasummarizationandoutlierdetection.Duetothecharacteristicsofdatastreamingagainsttraditionaldataminingtechnique

3、,newrequirementsandchallengeshavebeenproposed.Thispaperisasurveyofvariouskindsofclusteringmethodsinminingdatastreaming.Inthispaper,we’llmakeanefforttoreviewthestate-of-the-artofclusteringmethodsofdatastreamingminingandprovideabigpictureofthisdomain.Toachievethisgoal,we’llfirstintroduce

4、thebasicconcepts,requirementsandfundamentaltechniques.Then,we’lllookbackintohistorytotrackthedevelopmentoftheclusteringmethods.Afterdescribingsomeclassicandpopularclusteringalgorithms,we’lldiscusswhatproblemshavealreadybeensolved.Atlast,we’llputforwardsomefurtherresearchissuesinthisdom

5、ain.Keywords:Clustering;DataStreaming;DataMining;ClusteringDataStreaming;StreamingMining摘要:近期,随着诸如实时监控系统、网络入侵检测和web上用户点击流等动态的应用环境源源不断地产生海量的、时序的、快速变化的和潜在无限的数据流,对数据流挖掘的研究变得重要而富有意义。聚类分析作为数据流挖掘领域的一个重要问题,在近期被高度重视和广泛研究。由于数据流模型不同于传统数据集的特殊性质,新的要求和挑战应运而生。本文对数据流挖掘中各种聚类分析算法和处理框架做了综述。文章力图回顾数据流聚类分析

6、领域的最近发展水平,提供给读者该领域的一个清晰的蓝图。为了实现这个目标,我们将首先介绍数据流聚类的基本概念、要求和底层的支撑技术。然后,我们将回顾历史,追寻各类数据流聚类算法和处理框架的发展轨迹将有助于深入理解这些算法。在详细描述一些经典和流行的聚类算法和处理框架后,我们将讨论该领域中哪些问题已经得到解决。最后,我们将展望未来,提出数据流聚类领域中进一步的研究热点和研究方向。关键词:聚类;数据流;数据挖掘;数据流聚类;数据流挖掘∗作者简介:徐天音,南京大学计算机科学与技术系,研究生21引言(Introduction)1.1数据流随着通信技术和硬件设备的不断发展,尤其

7、是小型无线传感设备的广泛应用,数据采集变得越来越便捷和趋于自动化。新兴的应用领域,诸如实时监控系统、气象卫星遥感、网络通信量监测和电力供应网等等,每时每刻都在源源不断地产生大量的数据。与传统的数据集不同,这些数据是海量的(massive)、时序的[1](temporallyordered)、快速变化的和潜在无限的(potentiallyinfinite)。我们称这样的数据形态为数据流(DataSteaming,简称Streaming),并用数据流模型(DataStreamingModel)来描述它。1.2数据流挖掘算法的特点由于数据流的特性,将传统的OLAP和数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。