欢迎来到天天文库
浏览记录
ID:33746466
大小:2.96 MB
页数:54页
时间:2019-02-28
《聚类分析算法clique的改进及应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、中南大学硕士学位论文聚类分析算法CLIQUE的改进及应用姓名:陈朝华申请学位级别:硕士专业:软件工程指导教师:王伟平;李建国20090501摘要随着计算机技术快速发展、网络的迅速普及,人们生产、收集数据的能力不断提高,数据量以前所未有的速度海量增长。面对海量数据,如何从海量数据中提取信息、建立知识资源,从而避免“数据丰富而知识匾乏"的局面,已经成为一个迫切需要解决的问题。数据挖掘是为了解决这个问题而产生的技术。作为数据挖掘领域的一个主要技术领域,聚类分析是将相似的对象划分为簇,从而帮助人们查询和找出有用的信息和知识。CLIQUE算法是基于密度和网格的聚类方法。在高维的大数据集上,该算法的聚
2、类效果较好,但是由于其子空间剪枝方法的简单、网格单元采用硬化分等缺陷,导致了其效率和聚类质量不够高。针对上述问题,本文对CLIQUE算法进行了改进。新算法的基本思路是将约束条件同CLIQUE算法的单调性质结合起来,共同用于对候选聚类进行“剪枝"操作,减少CLIQUE算法搜索过程中的“盲目性";利用自适应网格划分技术大大减少密集单元候选集的输入,同时,也减小了要处理的数据集的大小;利用边界调整技术提高聚类的精度。为了证明新算法的先进性,本文在UCI数据集上对两种算法进行了实验,结果表明,新算法聚类速度较快,可伸缩性较强,聚类质量较好。最后给出了新算法在入侵检测系统中的应用。在KDDCUP99
3、的入侵检测数据集上,分别应用新算法对各种攻击类型的连接记录数据集进行实验,然后又对混合攻击类型的连接记录数据集进行实验。结果表明,新算法较原算法具有较好的质量。关键词:数据挖掘,聚类分析,CLIQUE算法,入侵检测ABSTRACTWiththerapiddevelopmentofcomputertechnology,therapidlygrowingpopularityofthenetwork,itisproduction,theabilitytocollectdatacontinuouslyimprove,theamountofdataatanunprecedentedrateofgro
4、wthinmass.Thefaceofhugeamountsofdata,howtoextractdatafromthemassofinformation,knowledgeresources,SOastoavoid¨datarichandpoorknowledgeofimportant”situation,hasbecomeapressingneedtobeaddressed.DataMiningistosolvetheproblemoftechnology.Thefieldofdataminingasamajorareaoftechnology,clusteringanalysisis
5、similartothetargetisdividedintoclusters,whichhelpspeoplesearchandfindusefulinformationandknowledge.CLIQUEalgorithmisbasedonthemeshdensityandtheclusteringmethod.Inalargehigh—dimensionaldatasets,theclusteringalgorithmisbetter,butbecauseofitssub—spacepruningmethodissimple,theuseofhardenedunitgriddefe
6、ctclassification,leadingtoitsefficiencyandclusteringqualityisnothighenough.Inresponsetotheseproblems,thisthises,animprovedalgorithmCLIQUE.ThebasicideaofthenewalgorithmisboundbytheconditionsofthemonotonyofthesamenatureCLIQUEalgorithmscombinetogetherfortheclusteringofthecandidateof”pruning¨operation
7、toreducetheCLIQUEalgorithmsearchofthe’’blindness¨;theuseofadaptivemeshtechnology—intensiveunitssignificantlyreducethecandidatesetofinput,atthesametime,itreducestheneedtodealwiththesizeofdatasets;boundaryadjustmen
此文档下载收益归作者所有