资源描述:
《改进遗传模糊聚类算法和其在入侵检测中应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、改进遗传模糊聚类算法和其在入侵检测中应用(湖南第一师范学院外语系外语教学综合实验中心,长沙410205)摘要:本文提出了基于改进遗传算法的特征加权模糊聚类算法(IG-WFCM),通过对样本数据集进行聚类划分,以此来确定数据所属的类别。并通过入侵检测仿真实验对该算法进行了测试,结果表明本文的算法是可行的,在一定程度上提高了入侵检测算法的性能和效率。关键词:遗传算法;模糊聚类算法;入侵检测中图分类号:TP393.08文献标识码:A文章编号:1007-9599(2013)09-0000-02模糊C-均值聚类是利用模糊理论进行数据
2、分析的经典聚类算法,由于其能比较客观地反映现实模型,所以在数据挖掘、入侵检测等很多领域都获得了有效的应用[1,2]。遗传算法(GA)是一种模拟自然进化过程来进行查找最优解的高效全局优化搜索算法[3],应用非常广泛。本文结合这两种算法的特点,提出了一种基于遗传算法的模糊聚类算法,并通过仿真实验对其在入侵检测中的表现进行研究。1模糊C-均值聚类算法基本原理模糊C-均值聚类(FCM)算法基本原理:通过优化目标函数计算每个样本点对所有类别中心的隶属度,从而自动将样本分成C个模糊类别。设样本集,X={X1,X2,…,Xn}则特征向量
3、样本,Xi=(Xil,Xi2,…,Xim),xik为样本xi的第k个属性值。样本集X的c个模糊子类别为XI,X2,•••XC,V=(V1,V2,•••VC),Vj为类别Xj的聚类中心,隶属度矩阵U=(uij),xi对于Xj的隶属关系为uij。(1-1)(1-2)Jm为目标函数,表示样本到类别中心的距离平方和,dik=1)Xi-VkII即样本xi到第k个类别中心Vk之间的欧式距离,模糊加权指数mW(1,oo),其用来控制隶属度矩阵U的模糊程度,根据大量实验可知,m值一般取[1.5,2.5]o利用拉格朗日乘数法,结合条件Zck
4、=lUik=l,UikE[0,1],i=l,2,A,n,k=l,2,..,c可得:Uik=[Zcj=l(dik/dij)2/(mT)]-l(1-3)Vk=Zni=l(Uik)mxi/Zni=l(Uik)m(1-4)设置终止条件,通过式(1.3)和式(1.4)迭代计算,使目标函数Jm趋向最小,达到收敛的目的。2属性处理及初始化聚类中心鉴于网络数据属性值之间的度量单位存在较大差异,为了减少对聚类结果的影响,需要对数据的属性进行预处理[5]o若X={xl,x2,xn}为样本集,则容量为n,维数为m,Xif表示第i个样本第f个属性
5、值。xi包含r个连续型属性Cl,C2,…,"和s个离散型属性Tl,T2,…,Ts本文对于离散型属性值采用基于不同状态的实数编码方式。N(tik).N(tjk)分别表示属性Tk在样本集X中取值为tik和tjk的数量,dt(i,j)即样本xi和xj之间的离散型属性距离。dt(i,j)二工sk二1(N(tik))/N(tik)N(tjk)*入(tik,tjk)(1-5)入(tik,tjk)={0(tik=tjk;)1(tik工tjk)(1-6)式(1-7)中Xif即为标准化后的连续型属性值,设R1,R2,…,Rr分别是连续型属性
6、Cl,C2,…,Cr的取值范围。mf=l/nZni=lxif,sf=l/nZni=l(Xif-mf)oxif=xif-mf/sf(1-7)dc(i,j)=31(x'il-x'jl)2+32(x'i2~x'j2)2+A+^r(x'ir~x'jr)2(1-8)wf=Rf/Zrk=lRk,对连续型属性距离值de(i,j)进行归一化处理如下:d'e(i,j)=dc(i,j)/max{de(i,j)}(1~9)最后,样本xi和xj的混合属性距离即为DH(i,j)oDH(i,j)=r/(r+s)*d'c(i,j)+s/(r+s)*dt
7、(i,j)(1-10)本文初始化聚类中心的确定采取文献5的方法,预先不设定聚类数目C,而是通过启发式聚类来自动确定聚类数目,从而划分聚类类别。网络数据样本集第一个聚类中心的计算可以采用属性算术平均值和属性最高频率取值的方法[5]。令第一个聚类中心VI的连续型属性向量A=(al,a2,…,ak,…,ar),离散型属性向量B二(bl,b2,...,bk,…,bs)oak为连续型属性Ck的算术平均值,bk为离散型属性Tk的最高频率值。ak=l/nEnj=lxjk,k=l,2,・・・,r(1-11)vl=A+B=(al,a2,A,
8、ar,bl,b2,A,bs)(1T2)3IG-WFCM算法在入侵检测中的应用本文针对模糊聚类算法的特点,提出了基于改进遗传算法的特征加权模糊聚类(IG-WFCM)算法,并通过在入侵检测系统进行测试,对训练数据集划分聚类,计算待测数据与聚类中心Vi的最小距离di,若di大于聚类宽度阈值,则为异常数据。St