资源描述:
《组合聚类算法在异常检测中应用探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、组合聚类算法在异常检测中应用探究摘要:该文结合当前网络异常检测的要求,在分析以往算法不足的基础上,提出了一种组合聚类算法,并应用到异常检测中。该算法先后使用蚁群聚类算法和K-means算法对数据进行聚类。通过两种聚类算法的有效组合,解决了原有聚类算法聚类结果受初始聚类中心选取的影响,实验证明该算法在保证较低误报率水平的前提下,提高了系统的的检测率。关键词:入侵检测;异常检测;聚类分析;K-means算法;蚁群算法中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)33-8010-04近年来随着Internet的快速发展,众多信息利
2、用网络平台进行传输存储,随之而来的信息安全问题亦日显突出。入侵检测技术因能及时发现并报告系统中未授权或异常现象,越来越多的被用于动态检测网络,确保网络安全。入侵检测主要有误用检测和异常检测两种方法。异常检测是一种基于行为的检测,通过将过去观察到的正常行为与受到攻击时的行为相比较,根据使用者的异常行为或资源的异常使用状况来判断是否发生入侵活动。美国哥伦比亚大学WenkeLee教授最早提出将数据挖掘技术应用到入侵检测系统中。国内向继等人将聚类算法应用到异常检测中。目前,通过对各类聚类算法在异常检测应用中的改进,可以检测出不同攻击类型,从而大大提高系统的检测率
3、,因此该工作已成为入侵检测领域研究的一大热点。该文结合当前网络异常检测的要求,在分析以往算法不足的基础上,提出了一种组合聚类算法,并应用到异常检测中,以提高系统的检测性能。1聚类算法介绍聚类分析能发现新型的和未知的入侵类型,它是一种无监督的学习方法,其将一些未知模式分成若干类,若特征向量之间的距离在一定误差范围内相等,则认为它们是同一类型。下面将介绍入侵检测中两种常见的聚类算法。1.1基于K-means的聚类算法K-means算法是由MacQueen提出的一种经典的聚类算法。其算法思想是通过迭代过程将数据集划分为不同的类别,使得评价聚类性能的准则函数达到
4、最优,从而生成的每个聚类内紧凑,类间独立。算法首先从n个数据对象任意选择K个对象作为初始聚类中心;剩下其它对象根据它们与这些聚类中心的距离,分别将它们归类最相似的簇中;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数该算法使用误差平方和准侧函数来评价聚类的性能。假设X包含K个聚类子集XI,X2,…,Xk;则误差平方和[E=i=lkpeXip-mi2]准则函数公式为:E表示所有数据的均方差之和,P为对象中的一个点,mi为聚类中心值。各个聚类自己种的样本数量分别为nl
5、,n2,…,nk各个聚类子集的平均值代表点分别是ml,m2,…,mko数据与聚类中心的距离由欧式距离公式计算而得。样本Xi与Xj之间的欧式距离公式为:1.2基于蚁群的聚类算法蚁群聚类算法是蚁群在觅食过程中,蚂蚁依据一定的概率选择觅食路径原理研究而得出的一种智能算法。研究发现,蚂蚁在此过程中,会在所经过的路径上不断释放一种信息素用于和其他蚂蚁进行信息的传递,这种物质能够被同类感知,并指导同类选择运动方向,因此有大量蚂蚁组成的蚁群集体行为便呈现出一种信息正反馈现象,即某一路经上走过的蚂蚁越多,则后来者选择该路径的概率就越大。在整个觅食寻径中,由于信息素的作用
6、使得整个蚁群集体的行为具有了很高的自组性。因此,在入侵检测中,可以将检测数据视作蚂蚁,而聚类中心就是蚂蚁所要寻找的食物源。设X={Xi
7、X=(xil,xi2,…,xin),i=l,2,…,n}是待聚类的数据集合;[vj]为聚类中心;预设聚类半径为R,统计误差为[e],信息数量为[tij]。t时刻,数据Xi到[vj]路径上的残留的信息素[Tij](t)为:当[dij]=R,[tij](t)=0o其中[dij]表示数据Xi到[vj]之间的欧式距离。t时刻,数据Xi是否属于聚类中心的概率计算方式为:[pij(t)=taij(t)T]Bij(t)stasj(t)
8、nBij(t)]其中S={Xs
9、[dsj]<=R,s=l,2,…,n},它表示分布在聚类中心[vj]内的数据集合。[f
10、ij]为l/[dij],[a,p'是为了防止数据的沿相同路径得到相同聚类造成停滞搜索结果而设置的调节因子,令VSj={Xk
11、[dkj]<=R,s=l,2,j},式中VSj表示Vj中的数据集合,j为Vj中的数据个数。那么理想的聚类中心由:v-=ljk=ljXk]公式计算得出。其中[XkWVSj]o计算每个聚类的偏离误差公式为[&j=k二叮i=lm(xki-xji)2],所有聚类的总偏差[&=j=lk&j]该算法具体描述:2组合聚类算法的研
12、究与实现2.1组合聚类算法的研究在该文所提到两种聚类算法中,K-means算法是