欢迎来到天天文库
浏览记录
ID:46726206
大小:750.67 KB
页数:12页
时间:2019-11-27
《数据流聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据流挖掘中的聚类方法综述∗徐天音(南京大学计算机科学与技术系,南京210093)ASurveyofClusteringMethodsinMiningDataStreaming*TianyinXu(DepartmentofComputerScienceandTechnology,NanjingUniversity,Nanjing210093,China)Abstract:Theresearchtodatastreamingmodelhasrecentlygainedahighattractionduetoitsapplications,includingreal-t
2、imesurveillancesystems,networkintrusiondetectionandclickstreams.Clustering,oneofthemostimportantproblemsinstreamingmining,hasrecentlybeenhighlyexploredbecauseitsapplicationtodatasummarizationandoutlierdetection.Duetothecharacteristicsofdatastreamingagainsttraditionaldataminingtechnique
3、,newrequirementsandchallengeshavebeenproposed.Thispaperisasurveyofvariouskindsofclusteringmethodsinminingdatastreaming.Inthispaper,we’llmakeanefforttoreviewthestate-of-the-artofclusteringmethodsofdatastreamingminingandprovideabigpictureofthisdomain.Toachievethisgoal,we’llfirstintroduce
4、thebasicconcepts,requirementsandfundamentaltechniques.Then,we’lllookbackintohistorytotrackthedevelopmentoftheclusteringmethods.Afterdescribingsomeclassicandpopularclusteringalgorithms,we’lldiscusswhatproblemshavealreadybeensolved.Atlast,we’llputforwardsomefurtherresearchissuesinthisdom
5、ain.Keywords:Clustering;DataStreaming;DataMining;ClusteringDataStreaming;StreamingMining摘要:近期,随着诸如实时监控系统、网络入侵检测和web上用户点击流等动态的应用环境源源不断地产生海量的、时序的、快速变化的和潜在无限的数据流,对数据流挖掘的研究变得重要而富有意义。聚类分析作为数据流挖掘领域的一个重要问题,在近期被高度重视和广泛研究。由于数据流模型不同于传统数据集的特殊性质,新的要求和挑战应运而生。本文对数据流挖掘中各种聚类分析算法和处理框架做了综述。文章力图回顾数据流聚类分析
6、领域的最近发展水平,提供给读者该领域的一个清晰的蓝图。为了实现这个目标,我们将首先介绍数据流聚类的基本概念、要求和底层的支撑技术。然后,我们将回顾历史,追寻各类数据流聚类算法和处理框架的发展轨迹将有助于深入理解这些算法。在详细描述一些经典和流行的聚类算法和处理框架后,我们将讨论该领域中哪些问题已经得到解决。最后,我们将展望未来,提出数据流聚类领域中进一步的研究热点和研究方向。关键词:聚类;数据流;数据挖掘;数据流聚类;数据流挖掘∗作者简介:徐天音,南京大学计算机科学与技术系,研究生21引言(Introduction)1.1数据流随着通信技术和硬件设备的不断发展,尤其
7、是小型无线传感设备的广泛应用,数据采集变得越来越便捷和趋于自动化。新兴的应用领域,诸如实时监控系统、气象卫星遥感、网络通信量监测和电力供应网等等,每时每刻都在源源不断地产生大量的数据。与传统的数据集不同,这些数据是海量的(massive)、时序的[1](temporallyordered)、快速变化的和潜在无限的(potentiallyinfinite)。我们称这样的数据形态为数据流(DataSteaming,简称Streaming),并用数据流模型(DataStreamingModel)来描述它。1.2数据流挖掘算法的特点由于数据流的特性,将传统的OLAP和数
此文档下载收益归作者所有