基于数据挖掘k―means算法异常检测模型探究和实现

基于数据挖掘k―means算法异常检测模型探究和实现

ID:31778661

大小:57.46 KB

页数:6页

时间:2019-01-18

基于数据挖掘k―means算法异常检测模型探究和实现_第1页
基于数据挖掘k―means算法异常检测模型探究和实现_第2页
基于数据挖掘k―means算法异常检测模型探究和实现_第3页
基于数据挖掘k―means算法异常检测模型探究和实现_第4页
基于数据挖掘k―means算法异常检测模型探究和实现_第5页
资源描述:

《基于数据挖掘k―means算法异常检测模型探究和实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于数据挖掘K—means算法异常检测模型探究和实现【摘要】本文结合数据仓库的优势采用数据挖掘中的K-means算法,对经过标准化预处理的数据进行训练、分类,获得可用的入侵检测规则。实验结果表明,K-means算法设计的异常检测模型可以作为预测和判断用户行为合法性的依据,并有较高的正确率,能降低系统的漏报率和误报率。【关键词】K-means算法;入侵检测规则;用户行为;正确率引言入侵检测是当前流行的安全防御技术,一般可分为异常检测和误用检测两种类型[1],异常检测主要用来发现未知的、可疑的攻击行为。提高异常检测的性能可以降低入侵检测系统的漏报率和误报

2、率。数据挖掘K-means算法能高度自动化地分析原有数据,从中挖掘出潜在的模式,预测用户行为,对入侵行为重新划分,获得入侵行为规则。从本文实验结果表明,其可以降低入侵检测系统的漏报率和误报率。1.数据挖掘(DataMining)数据挖掘就是要从大量的数据中整理出或挖掘出有用的知识,这些知识是隐含的、事先未知的具有潜在有用信息,它们可表示为概念、规则、规律、模式等形式[2]。数据挖掘技术是一种决策支持过程,它主要基于人工智能(AI)、机器学习统计等技术,能从大量数据中提取或挖掘知识。1.数据挖掘的K-means算法入侵检测模型需要高效、准确地处理海量的

3、用户行为数据,并尽可能降低误判率、漏判率是判断一个入侵检测系统成功与否的标志。聚类分析方法具有可伸缩性、高维性、能处理不同类型属性、可按各种约束聚类等优点,尤其适用大型数据库的模式分类[3]。2.1聚类分析聚类按照“最大化类内相似性,最小化类间相似性”的原则,将数据对象分组为多个类或簇(cluster),同一个簇中的对象具有较高相似度,而不同簇间的对象差别较大,对象间的相异度根据对象的属性值计算。给定一个有N个对象或元组的数据库,用聚类划分法构建数据的K个划分,每个划分表示一个聚簇,并且KWN。在聚类划分中,基于距离的分类采用度量方式,例如K-mea

4、ns、K-medoids等。当前比较流行的启发式方法首推K-means算法,我们在此用此算法对已知用户行为数据库进行聚类划分,检测入侵行为[4]。2.2K-means算法K-means算法以K为参数,把N个对象分为K个簇,以使簇内具有较高的相似度,而簇间的相似度较低。相似度的计算根据一个簇中的平均值(视为簇重心)进行。K-means算法的处理过程为:1)随机选择K个对象,每个对象初始代表一个簇的平均值或中心。对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。2)重新计算每个簇的平均值。这个过程不断重复,直至准则函数收敛到期望值。由于实际应

5、用中对象数据选用的度量单位将直接影响聚类分析结果,不同度量单位可能产生迥异的聚类结构,因此为避免对度量单位选择的依赖,实际中应先对数据进行标准化处理。每个对象与簇中心的距离采用欧几里德距离,其定义如式(2-1)所示,其中i=(Xil,Xi2,Xip)和j=(Xjl,Xj2,,Xjp)是2个p维的数据对象。(2-1)该算法试图找出使均方误差函数值最小的K个划分,令生成的结果尽量紧凑、独立。下面是K-means算法的流程,从中可以得到,算法的复杂度为0(nkt),远小于0(n2),其中,n是所有对象的数目,K是簇的数目,t是迭代次数(一般k和t均小于n)

6、。鉴于待划分的数据库通常比较大,这种性能还是比较优良的。K-means算法流程如下:(1)算法K-means基于簇中对象平均值。(2)输入簇的数目K和N个对象的数据库。(3)输出K个簇,满足均方误差函数值最小。1.异常检测模型通过数据仓库的数据采集、预处理及分析后,形成一个以异常检测为主题的数据集市,该数据集市的模型包含IP地址ID、连接次数、访问协议ID、访问协议次数、访问目标端口次数、出现连接错误次数、访问资源级别ID、访问资源次数。对生成的异常检测数据进行标准化处理,成为可供K-means使用的特征数据。采用C++语言按照上述原理与流程进行编程

7、,对数据进行分析,经过有限次的迭代即可识别出异常、攻击、安全3种类型的记录,当然也可以按照自己的要求设置分类数。图1是使用K-means算法设计异常检测模型的设计流程图,用它来生成异常检测规则。图1异常检测模型的设计流程图对K-means聚类结果进行分析后,总结出不同类规则及其含义,把这些规则中的正常与攻击行为模式作为入侵检测模式存入在数据仓库中,用以预测和判断用户行为合法性的依据。2.实验4.1实验用例本测试使用MIT林肯实验室开发的DARPA1999年IDS评测数据集进行了实验测试。异常检测实验时把星期一的部分数据用来经过入侵检测模型来生成异常检

8、测规则,把星期二、星期四、星期五的数据用来进行异常检测实验。4.2测试过程处理星期一的部分数据,使数据的形式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。