一种基于聚类的异常检测方法.pdf

一种基于聚类的异常检测方法.pdf

ID:52399511

大小:219.47 KB

页数:3页

时间:2020-03-27

一种基于聚类的异常检测方法.pdf_第1页
一种基于聚类的异常检测方法.pdf_第2页
一种基于聚类的异常检测方法.pdf_第3页
资源描述:

《一种基于聚类的异常检测方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2011年第30卷第1期传感器与微系统(TransducerandMicrosystemTechnologies)19一种基于聚类的异常检测方法李鑫,单维峰,丰继林,李军,高方平,李忠(防灾科技学院灾害信息工程系,河北三河065201)摘要:利用数据挖掘技术对网络中的海量数据进行分析从而发现入侵行为已成为目前异常检测研究的重点。为了进一步提高入侵行为检测的质量,提出了一种改进的异常检测算法。该方法首先将训练数据集转换为标准的单位特征度量空间,然后利用改进算法对数据进行划分,以找到聚类中心。最后对改进算法进行了

2、性能分析与比较,实验结果表明:算法具有良好的稳定性,能够有效地检测真实网络数据中的入侵行为,对大数据集合具有较好的可伸缩性。关键词:数据挖掘;聚类;异常检测;检测率;误警率中图分类号:TP393文献标识码:A文章编号:1000-9787(2011)O1--0019--03AnanomalydetectionalgorithmbasedonclusteringLIXin,SHANWei-feng,FENGJi-lin,LIJun,GAOFang—ping,LIZhong(DepartmentofInformat

3、ionTechnology,InstituteofDisasterPreventionScienceandTechnology,Sanhe065201,China)Abstract:Analyzingmassdatainnetworkbydataminingtechnologyinordertodetectintrusionhasbecomefocusofanomalydetectionresearch.Inordertoimprovequalityofintrusiondetection,animprove

4、danomalydetectionalgorithmisproposed.Thetrainingdatasetisconveaedtothestandardunitfeaturesmetricspace.Theimprovedalgorithmisusedtodividethedatainordertofindtheclusteringcenter.Theimprovedalgorithmisanalyzedandcomparedwitholdalgorithm.Experimentalresultsshow

5、thattheimprovedalgorithmhasgoodstabilityandcandetectintrusionsinrealnetworkdataeffectivelY.Ithasbetterscalabilityonlargedataset.Keywords:datamining;clustering;anomalydetection;detectionrate;falsealarmrate0引言无法得到最佳聚类效果。与CLARA不同,CLARANS采用利用数据挖掘技术对网络中的海量数据进行分析

6、从而抽样方法来选择样本,因此,其聚类质量取决于所采用的抽发现入侵行为已成为目前异常检测研究的重点[t-a]。利用样方法。聚类算法进行异常检测不需要训练数据,只需要带有各种为了进一步提高入侵行为检测的质量,本文提出了一属性的数据记录。通过计算不同记录的属性差别,把类似种基于改进PAM算法的异常检测方法~IPAM(improved的记录聚集在一起,然后利用距离矢量来判断哪些是异常partitioningaroundmedoids)。该方法首先将训练数据集转记录。换为标准的单位特征度量空间,然后利用改进的PAM算法

7、聚类算法主要被划分为层次的方法和分区的方法。典对数据进行划分,以找到聚类中心。实验结果表明:算法性型的层次聚类算法有BIRCH,CURE和CHAME—能稳定,能够有效检测真实网络数据中的入侵行为,较LEON等。而基于分区的聚类算法的基本思想是利用某PAM算法对大的数据集合具有更好的可伸缩性和更优的一个划分方法对n个对象进行分区,得到的每一个分区代性能。表一个聚簇。代表性的分区算法有PAM,CLARA和1改进的PAM算法CLARANS¨g等。PAM算法仅对小的数据集合非常有效,而首先,将数据随机取样,由于样本的

8、中心点在真正随机对大的数据集合没有良好的可伸缩性。作为对PAM算法抽取的条件下可以看作是整个数据集的中心点,因此,通过的改进,出现了CLARA算法和CLARANS算法。从理论上对m组样本进行PAM划分,可生成m组k个中心点的候分析,由于CLARA算法只是对一部分样本进行划分,可能选集。然后,由于该候选集代表了数据集在不同采样情况收稿日期:2010--05—10基金项目:国家科技支撑计划资助项目(20

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。