遗传算法在入侵检测中的应用.doc

遗传算法在入侵检测中的应用.doc

ID:59158450

大小:108.50 KB

页数:5页

时间:2020-09-15

遗传算法在入侵检测中的应用.doc_第1页
遗传算法在入侵检测中的应用.doc_第2页
遗传算法在入侵检测中的应用.doc_第3页
遗传算法在入侵检测中的应用.doc_第4页
遗传算法在入侵检测中的应用.doc_第5页
资源描述:

《遗传算法在入侵检测中的应用.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1.1遗传算法在入侵检测中的应用遗传算法已经以很多的方式应用于入侵检测中。一类方法是直接使用遗传算法产生出分类规则;另一类方法是应用不同的人工智能方法获取规则,而用遗传算法来选择更适合的特征或对一些函数参数进行优化。本文使用第一类方法直接使用遗传算法产生出分类规则。1.1.1数据分析与染色体编码大样本数据,一般指样本量大、数据结构复杂、离散度大的样本数据。在预测、回归分析以及图像处理、模式识别等领域中涉及大样本数据处理时,一般首先要对大样本数据聚类分析,得到对象数据集的关联规则,然后才能进一步进行相关的研究

2、工作。本文的研究就是基于大样本数据进行的,首先对样本进行聚类分析,本节将用遗传算法对训练集聚类,得出规则集。首先从“KDDCup1999Data”中选取了8维数据作为训练集。其中,前面7维数据为分类规则,第8维数据为标记位,它唯一确定了数据的属性。具体的8维数据属性如表5.4所示。单个TCP连接的基本属性表5.4特征名称特征描述数据类型src_bytes从源端到目的端传输的字节数连续型dst_bytes从目的端到源端传输的字节数连续型count两秒内对同一主机发出的连接数目连续型srv_count两秒时间内

3、与当前连接使用相同服务的连接数连续型dst_host_count过去两秒时间内对同一主机发出的连接数连续型dst_host_srv_count两秒内与当前连接同样的服务的连接数连续型dst_host_same_src_port_rate对于同一端口的连接所占的百分比连续型falg标记该数据的类型(正常数据或攻击数据)离散型由于正常数据与攻击数据间存在着本质的区别,因此正常数据与正常数据的相似度较高,攻击数据与攻击数据的相似度较高,正常数据与攻击数据的相似度较低。由此,可以明确地将正常数据与攻击数据分离。通过

4、聚类确定两个聚类中心,将训练集通过算法分成两个类,一类为正常数据,另一类为攻击数据。通过数据分析,可以使用二进制对训练集进行编码。如图5.1所示。图5.1染色体编码示意图每一条染色体标记了训练集中所有数据的类型,1代表正常数据,0代表攻击数据。染色体的长度即为训练集的规模。1.1.1适应度函数1.1.2选择方式(赌轮选择法)通常做法是:对于一个规模为N的种群S,按每个染色体xi∈S的选择概率P(xi)所决定的选中机会,分N次从S中随机选定N个染色体,并进行复制。这里的选择概率P(xi)的计算公式为(1)1.

5、1.3交叉方式鉴于该算法种群染色体长的特点,单点交叉显得不足,而随机多点交叉在算法的实现上比较复杂。因此,在该算法中引入了基因的概念,将染色体分成一个一个的基因片断。在该算法中,染色体的编码凡是决定了染色体的长度成百上千。若染色体的长度为,单个基因片断的长度为,则整个染色体被分割成/个基因。对每个基因进行单点交叉,整体上看就相当于对整条染色体进行了多点交叉,确保了交叉的范围足够大,更好地产生出新的种群。改进后的多点交叉既保留了多点交叉的优点,又方便了算法的实现,还体现了自然界遗传的真实特点。1.1.1变异方

6、式变异借鉴了基因片断的引入,在每个基因片断上进行单独的变异。1.1.2终止条件在基本遗传算法中,介绍了一般采用最大代数作为算法的停止准则。该方法简单易行,但是并不准确。应为可能在最大代数之前算法已经收敛很长时间,这将浪费大量的时间作无谓的计算;也可能在最大迭代次数时算法还没有收敛,这将影响到算法的准确率。除了将最大迭代次数作为停止准则外,还可以根据种群的收敛程度,即种群中适应值的一致性来判断是否算法停止。在算法过程中保留历史最好的个体的适应值,使用公式(2)判断种群是否收敛。(2)公式(2)中,为最后个历史

7、最好个体的适应值,为的平均值,是一个足够小的常量。通过控制的值可以控制在最后历史最优值的方差小于的时候认为算法达到收敛。1.1.3算法流程从以上分析可得出用于该模型中遗传算法的流程。概括的讲,该算法的大体步骤如下:第1步:装载数据,选出训练集,将数据标准化。第1步:随机建立初始种群。第2步:计算出各个体的适应值。第3步:选择。第4步:交叉,将选出的父代两两间进行多点交叉,所产生的新个体添入新种群。第5步:变异,随机地改变某个个体的某一字符,将新个体添入新种群。第6步:判断终止条件,若终止条件满足则计算分类准

8、确度并测试、输出结果,否则转第3步。算法的流程图如图所示。图1遗传算法流程图1.1.1算法参数确定在该遗传算法中种群最大迭代次数eranum设为1000,基因长度GaLen设为20。剩下需要确定的算法参数有种群规模popsize,交叉概率pCross和变异概率pMutation。通过测试发现,种群规模popsize对算法的收敛有很大影响。当种群规模popsize为5的时候,种群收敛时迭代次数一般在100次以内,随

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。